分类

PDF文本提取器

从PDF文档中提取文本内容,支持页面选择、格式选项和多语言处理

Click to upload file or drag and drop file here

Maximum file size: 100MB Supported formats: application/pdf

支持最大100MB的PDF文件

指定要提取的页面(1-5为范围,3为单页,1,3,5为多页)。留空则提取所有页面。

尽可能保持原始布局、间距和格式

清理多余的空格和换行符

为提取的文本添加行号

关键信息

分类
Document Tools
输入类型
file, text, select, checkbox
输出类型
text
样本覆盖
4
支持 API
Yes

概览

PDF文本提取器是一款高效的在线工具,旨在帮助用户快速从PDF文档中解析并提取纯文本或结构化内容,支持自定义页面范围、格式保留及多种编码设置,满足各类文档处理需求。

适用场景

  • 需要从扫描件或电子版PDF中获取可编辑的文本内容时。
  • 仅需提取文档中特定页码范围的文字信息时。
  • 在进行数据分析或文档归档前,需要将PDF内容转换为Markdown或JSON格式时。

工作原理

  • 上传您的PDF文件,支持最大100MB的文档。
  • 根据需求设置页面范围、输出格式及文本编码等选项。
  • 点击提取按钮,系统将自动解析文档并生成您所需的文本内容。

使用场景

快速从长篇PDF报告中提取关键段落用于文档撰写。
将PDF格式的表格或列表转换为JSON数据,以便导入数据库。
清理PDF文档中多余的空格和换行符,整理成整洁的Markdown笔记。

用户案例

1. 提取合同关键条款

法务专员
背景原因
需要从一份50页的PDF合同中提取第10至12页的违约责任条款。
解决问题
手动复制粘贴容易出错且效率低下。
如何使用
上传合同文件,在页面范围输入“10-12”,选择输出格式为“Plain Text”。
效果
快速获取了所需的合同条款文本,直接用于后续的法律分析。

2. 转换技术文档为Markdown

技术文档工程师
背景原因
需要将一份PDF格式的产品手册转换为Markdown格式,以便发布到公司的知识库。
解决问题
PDF的排版在直接复制时会丢失标题层级和列表结构。
如何使用
上传手册,勾选“保持原始格式”,并将输出格式设置为“Markdown”。
效果
生成了带有正确Markdown语法结构的文本,无需手动调整标题和列表格式。

用 Samples 测试

pdf, video, text

相关专题

常见问题

PDF文本提取器支持多大的文件?

该工具支持最大100MB的PDF文件。

可以只提取PDF中的某几页吗?

可以,您可以在“页面范围”选项中指定页码,例如“1-5”表示提取前五页,或“1,3,5”提取特定单页。

提取后的文本格式可以保留吗?

您可以勾选“保持原始格式”选项,系统将尽可能还原文档中的布局、间距和排版。

支持哪些输出格式?

支持纯文本 (Plain Text)、格式化文本 (Formatted Text)、Markdown 以及 JSON 结构化数据。

提取出的文本出现乱码怎么办?

请检查并调整“文本编码”选项,通常推荐使用 UTF-8 编码以获得最佳的字符兼容性。

API 文档

请求端点

POST /zh/api/tools/pdf-text-extractor

请求参数

参数名 类型 必填 描述
pdfFile file (需要先上传) 支持最大100MB的PDF文件
pageRange text 指定要提取的页面(1-5为范围,3为单页,1,3,5为多页)。留空则提取所有页面。
outputFormat select -
preserveFormatting checkbox 尽可能保持原始布局、间距和格式
removeExtraWhitespace checkbox 清理多余的空格和换行符
includeLineNumbers checkbox 为提取的文本添加行号
encoding select -

文件类型参数需要先通过 POST /upload/pdf-text-extractor 上传获取 filePath,然后将 filePath 传递给对应的文件字段。

响应格式

{
  "result": "Processed text content",
  "error": "Error message (optional)",
  "message": "Notification message (optional)",
  "metadata": {
    "key": "value"
  }
}
文本: 文本

AI MCP 文档

将此工具添加到您的 MCP 服务器配置中:

{
  "mcpServers": {
    "elysiatools-pdf-text-extractor": {
      "name": "pdf-text-extractor",
      "description": "从PDF文档中提取文本内容,支持页面选择、格式选项和多语言处理",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=pdf-text-extractor",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

你可以串联多个工具,比如:`https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`,最多20个。

支持 URL 文件链接或 Base64 编码作为文件参数。

如果遇见问题,请联系我们:[email protected]