关键信息
- 分类
- 文档与 PDF
- 输入类型
- file, text, select, checkbox
- 输出类型
- file
- 样本覆盖
- 4
- 支持 API
- Yes
概览
PDF转文本增强版是一款功能强大的PDF文本提取工具,支持自定义页码范围、输出格式(纯文本、带分隔符的结构化文本或JSON)以及文本清理级别。它不仅能保留段落结构,还能选择性地提取PDF元数据、添加页眉和行号,满足您多样化的文档处理与数据分析需求。
适用场景
- •需要从长篇PDF报告中仅提取特定页面(如特定章节或附录)的文本内容时。
- •需要将PDF中的非结构化文本转换为JSON格式,以便进行后续的数据分析或程序处理时。
- •需要在提取文本的同时保留原始段落结构,或需要清除多余的格式干扰以获取干净的纯文本时。
工作原理
- •上传需要转换的PDF文件,并根据需要输入特定的页码范围(如“1-5,7,10-12”或“all”)。
- •选择输出格式(纯文本、结构化文本或JSON),并设置文本清理级别(温和、强力或无)。
- •根据需求勾选是否保留段落结构、包含PDF元数据、添加页眉或行号。
- •点击转换按钮,系统将解析PDF并生成对应的文本或JSON文件供您下载。
使用场景
用户案例
1. 提取学术论文特定章节
科研人员- 背景原因
- 需要从一本300页的PDF电子书中提取第5章(第120-135页)的内容进行引用分析。
- 解决问题
- 手动复制PDF文本容易出现换行错乱和多余空格,且不需要整本书的文本。
- 如何使用
- 上传PDF电子书,在“页码范围”中输入“120-135”,输出格式选择“Plain Text”,勾选“保留段落结构”,文本清理选择“Gentle”。
- 示例配置
-
sourceFile: "book.pdf", pageRange: "120-135", outputFormat: "plain", cleanLevel: "gentle", preserveParagraphStructure: true - 效果
- 成功导出仅包含第120至135页的纯文本文件,段落结构完整,无多余换行。
2. 转换PDF合同为结构化JSON
数据分析师- 背景原因
- 需要将多份PDF格式的合同文本导入数据库,提取其中的元数据和条款内容。
- 解决问题
- PDF文本无法直接被数据库读取,需要转换为结构化的JSON格式并保留元数据。
- 如何使用
- 上传合同PDF文件,页码范围设为“all”,输出格式选择“JSON”,勾选“包含PDF元数据”。
- 示例配置
-
sourceFile: "contract.pdf", pageRange: "all", outputFormat: "json", includeMetadata: true - 效果
- 获得一个包含合同元数据(如标题、作者)及按页划分的结构化文本JSON文件,便于程序直接解析入库。
用 Samples 测试
pdf, text, barcode相关专题
常见问题
支持提取加密的PDF文件吗?
本工具仅支持未加密或已解除密码保护的PDF文件,请在上传前确保文件可正常读取。
如何只提取PDF中的某几页?
您可以在“页码范围”输入框中指定页码,例如输入“1-5,7,10-12”即可仅提取这些页面的文本。
导出的JSON格式包含哪些内容?
JSON格式会结构化地输出提取的文本内容,如果勾选了“包含PDF元数据”,还会包含文档的作者、创建日期等元数据信息。
“文本清理”选项有什么作用?
文本清理用于去除PDF转换过程中可能产生的冗余空白或特殊字符。“温和”保留大部分排版,“强力”则会更严格地过滤非文本元素。
转换后的文件大小有限制吗?
本工具支持上传最大100MB的PDF文件进行文本提取。