PDF转文本增强版

高级PDF转文本转换器,支持页码选择、格式选项和元数据提取

高级PDF转文本转换,提供丰富的自定义选项。

示例结果

2 个示例

按页范围提取文本

从PDF文档的指定页面提取文本

pdf-to-text-output.txt 查看文件
查看输入参数
{ "sourceFile": "/public/samples/pdf/document.pdf", "pageRange": "1-5,10", "outputFormat": "structured", "includeMetadata": true }

导出为JSON

将PDF内容和元数据导出为JSON格式

pdf-to-text-output.json 查看文件
查看输入参数
{ "sourceFile": "/public/samples/pdf/book.pdf", "outputFormat": "json", "includeMetadata": true, "pageRange": "all" }

Click to upload file or drag and drop file here

Maximum file size: 100MB Supported formats: application/pdf

关键信息

分类
文档与 PDF
输入类型
file, text, select, checkbox
输出类型
file
样本覆盖
4
支持 API
Yes

概览

PDF转文本增强版是一款功能强大的PDF文本提取工具,支持自定义页码范围、输出格式(纯文本、带分隔符的结构化文本或JSON)以及文本清理级别。它不仅能保留段落结构,还能选择性地提取PDF元数据、添加页眉和行号,满足您多样化的文档处理与数据分析需求。

适用场景

  • 需要从长篇PDF报告中仅提取特定页面(如特定章节或附录)的文本内容时。
  • 需要将PDF中的非结构化文本转换为JSON格式,以便进行后续的数据分析或程序处理时。
  • 需要在提取文本的同时保留原始段落结构,或需要清除多余的格式干扰以获取干净的纯文本时。

工作原理

  • 上传需要转换的PDF文件,并根据需要输入特定的页码范围(如“1-5,7,10-12”或“all”)。
  • 选择输出格式(纯文本、结构化文本或JSON),并设置文本清理级别(温和、强力或无)。
  • 根据需求勾选是否保留段落结构、包含PDF元数据、添加页眉或行号。
  • 点击转换按钮,系统将解析PDF并生成对应的文本或JSON文件供您下载。

使用场景

学术论文数据提取:从数百页的PDF文献中提取特定章节,并转换为JSON格式导入文献管理软件。
财务报表文本分析:提取PDF格式的年度报告文本,保留段落结构,方便进行关键词检索和自然语言处理。
电子书格式转换:将PDF格式的电子书转换为纯文本(Plain Text)格式,便于在电子阅读器上无障碍阅读。

用户案例

1. 提取学术论文特定章节

科研人员
背景原因
需要从一本300页的PDF电子书中提取第5章(第120-135页)的内容进行引用分析。
解决问题
手动复制PDF文本容易出现换行错乱和多余空格,且不需要整本书的文本。
如何使用
上传PDF电子书,在“页码范围”中输入“120-135”,输出格式选择“Plain Text”,勾选“保留段落结构”,文本清理选择“Gentle”。
示例配置
sourceFile: "book.pdf", pageRange: "120-135", outputFormat: "plain", cleanLevel: "gentle", preserveParagraphStructure: true
效果
成功导出仅包含第120至135页的纯文本文件,段落结构完整,无多余换行。

2. 转换PDF合同为结构化JSON

数据分析师
背景原因
需要将多份PDF格式的合同文本导入数据库,提取其中的元数据和条款内容。
解决问题
PDF文本无法直接被数据库读取,需要转换为结构化的JSON格式并保留元数据。
如何使用
上传合同PDF文件,页码范围设为“all”,输出格式选择“JSON”,勾选“包含PDF元数据”。
示例配置
sourceFile: "contract.pdf", pageRange: "all", outputFormat: "json", includeMetadata: true
效果
获得一个包含合同元数据(如标题、作者)及按页划分的结构化文本JSON文件,便于程序直接解析入库。

用 Samples 测试

pdf, text, barcode

相关专题

常见问题

支持提取加密的PDF文件吗?

本工具仅支持未加密或已解除密码保护的PDF文件,请在上传前确保文件可正常读取。

如何只提取PDF中的某几页?

您可以在“页码范围”输入框中指定页码,例如输入“1-5,7,10-12”即可仅提取这些页面的文本。

导出的JSON格式包含哪些内容?

JSON格式会结构化地输出提取的文本内容,如果勾选了“包含PDF元数据”,还会包含文档的作者、创建日期等元数据信息。

“文本清理”选项有什么作用?

文本清理用于去除PDF转换过程中可能产生的冗余空白或特殊字符。“温和”保留大部分排版,“强力”则会更严格地过滤非文本元素。

转换后的文件大小有限制吗?

本工具支持上传最大100MB的PDF文件进行文本提取。

API 文档

请求端点

POST /zh/api/tools/pdf-to-text-advanced

请求参数

参数名 类型 必填 描述
sourceFile file (需要先上传) -
pageRange text -
outputFormat select -
cleanLevel select -
includeMetadata checkbox -
includePageHeaders checkbox -
includeLineNumbers checkbox -
preserveParagraphStructure checkbox -

文件类型参数需要先通过 POST /upload/pdf-to-text-advanced 上传获取 filePath,然后将 filePath 传递给对应的文件字段。

响应格式

{
  "filePath": "/public/processing/randomid.ext",
  "fileName": "output.ext",
  "contentType": "application/octet-stream",
  "size": 1024,
  "metadata": {
    "key": "value"
  },
  "error": "Error message (optional)",
  "message": "Notification message (optional)"
}
文件: 文件

AI MCP 文档

将此工具添加到您的 MCP 服务器配置中:

{
  "mcpServers": {
    "elysiatools-pdf-to-text-advanced": {
      "name": "pdf-to-text-advanced",
      "description": "高级PDF转文本转换器,支持页码选择、格式选项和元数据提取",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=pdf-to-text-advanced",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

你可以串联多个工具,比如:`https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`,最多20个。

支持 URL 文件链接或 Base64 编码作为文件参数。

如果遇见问题,请联系我们:[email protected]