关键信息
- 分类
- 开发与 Web
- 输入类型
- file, checkbox, text, select
- 输出类型
- html
- 样本覆盖
- 4
- 支持 API
- Yes
概览
PDF 转 JSON 结构浏览器是一款专为开发者和数据分析师设计的实用工具。它能够将 PDF 文件解析为 OpenDataLoader 标准的 JSON 格式,并以直观的 HTML 视图呈现文档的语义层。通过该工具,您可以轻松查看和检索 PDF 中的标题、段落、表格、列表以及对应的页码和边界框(Bounding Box),是调试解析质量、核对表格识别结果以及深入理解文档结构的理想选择。
适用场景
- •需要调试 PDF 解析器质量,验证标题层级和段落划分是否准确时。
- •提取复杂 PDF 表格数据前,需要预览和核对表格结构及边界框(BBox)信息时。
- •开发基于大语言模型(LLM)的文档问答系统前,需要清洗和检视底层语义节点时。
工作原理
- •上传需要解析的 PDF 文件,并可选择性地指定需要处理的页码范围(如 1,3,5-7)。
- •配置解析选项,例如是否使用结构树、是否脱敏敏感数据,以及按节点类型(如仅表格、仅标题)进行过滤。
- •工具在后台运行 OpenDataLoader 引擎,提取文档的语义节点并生成结构化的 JSON 数据。
- •最终输出一个可视化的 HTML 浏览报告,直观展示所有提取的节点、页码、边界框及内容。
使用场景
用户案例
1. 浏览品牌指南 PDF 的语义结构
数据工程师- 背景原因
- 正在为企业构建内部知识库,需要将品牌指南 PDF 转换为结构化数据供大模型读取。
- 解决问题
- 无法直观确认 PDF 中的标题层级和列表是否被正确解析,直接阅读原始 JSON 过于繁琐。
- 如何使用
- 上传品牌指南 PDF,勾选“使用结构树”,并将节点类型过滤设置为“全部节点”。
- 示例配置
-
{ "useStructTree": true, "nodeFilter": "all" } - 效果
- 生成包含 20 个语义节点的 HTML 浏览报告,清晰展示了文档的标题层级、段落内容及页码,确认解析无误。
2. 提取并核对财务报表中的表格
财务分析师- 背景原因
- 需要从长达 50 页的年度财务报告中提取特定的营收数据表格。
- 解决问题
- 报告中包含大量无关文本,手动寻找和确认表格结构非常耗时。
- 如何使用
- 上传财务报告 PDF,在页码范围输入“10-15”,选择节点类型过滤为“仅表格”,并输入搜索词“revenue”。
- 示例配置
-
{ "pages": "10-15", "nodeFilter": "table", "searchTerm": "revenue" } - 效果
- 报告仅展示第 10 到 15 页中包含“revenue”关键词的表格节点,并附带精确的边界框坐标,极大提升了核对效率。
用 Samples 测试
json, pdf, file相关专题
常见问题
这个工具支持哪些节点类型的过滤?
支持过滤显示全部节点,或者仅显示标题(heading)、表格(table)和列表(list)节点,方便您快速定位特定结构。
如何只解析 PDF 的部分页面?
您可以在“页码范围”输入框中指定需要解析的页面,例如输入“1-5,8”即可仅提取这些页面的结构数据。
什么是边界框(Bounding Box)?
边界框(BBox)是记录文本或表格在 PDF 页面上具体物理位置的坐标数据,有助于进行精准的版面分析和内容定位。
“脱敏敏感数据”功能有什么作用?
开启该功能后,工具会在解析过程中自动识别并遮蔽常见的敏感信息,保护数据隐私。
导出的结果是什么格式?
工具会直接在浏览器中生成一份交互式的 HTML 报告,您可以在其中直观地浏览 JSON 结构和语义节点。