PDF 转 JSON 结构浏览器

提取 PDF 的 OpenDataLoader JSON 结构,并以浏览器视图查看标题、段落、表格、列表、页码和 bbox

上传 PDF 后,工具会生成 OpenDataLoader JSON,然后把识别到的标题、段落、列表、表格与页码、bounding box 一起渲染成结构浏览报告。适合调试解析质量、核对表格识别以及查看文档的语义层。

示例结果

1 个示例

浏览品牌指南 PDF 的语义结构

真实 sample 展示了 20 个语义节点,无需手读原始 JSON。

Explorer report showing 20 semantic nodes from brand-guidelines-pdf-example1.pdf with page metadata, node counts, and JSON preview.
查看输入参数
{ "pdfFile": "/public/samples/pdf/brand-guidelines-pdf-example1.pdf", "useStructTree": true, "sanitizeSensitiveData": false, "pages": "", "nodeFilter": "all", "searchTerm": "" }

Click to upload file or drag and drop file here

Maximum file size: 10MB Supported formats: application/pdf

关键信息

分类
开发与 Web
输入类型
file, checkbox, text, select
输出类型
html
样本覆盖
4
支持 API
Yes

概览

PDF 转 JSON 结构浏览器是一款专为开发者和数据分析师设计的实用工具。它能够将 PDF 文件解析为 OpenDataLoader 标准的 JSON 格式,并以直观的 HTML 视图呈现文档的语义层。通过该工具,您可以轻松查看和检索 PDF 中的标题、段落、表格、列表以及对应的页码和边界框(Bounding Box),是调试解析质量、核对表格识别结果以及深入理解文档结构的理想选择。

适用场景

  • 需要调试 PDF 解析器质量,验证标题层级和段落划分是否准确时。
  • 提取复杂 PDF 表格数据前,需要预览和核对表格结构及边界框(BBox)信息时。
  • 开发基于大语言模型(LLM)的文档问答系统前,需要清洗和检视底层语义节点时。

工作原理

  • 上传需要解析的 PDF 文件,并可选择性地指定需要处理的页码范围(如 1,3,5-7)。
  • 配置解析选项,例如是否使用结构树、是否脱敏敏感数据,以及按节点类型(如仅表格、仅标题)进行过滤。
  • 工具在后台运行 OpenDataLoader 引擎,提取文档的语义节点并生成结构化的 JSON 数据。
  • 最终输出一个可视化的 HTML 浏览报告,直观展示所有提取的节点、页码、边界框及内容。

使用场景

开发者调试文档解析算法,对比不同 PDF 文件的结构树提取效果。
数据工程师在构建 RAG(检索增强生成)知识库前,预览和清洗 PDF 的语义分块(Chunking)质量。
业务人员快速检索长篇研究报告或品牌指南中的特定表格和列表数据。

用户案例

1. 浏览品牌指南 PDF 的语义结构

数据工程师
背景原因
正在为企业构建内部知识库,需要将品牌指南 PDF 转换为结构化数据供大模型读取。
解决问题
无法直观确认 PDF 中的标题层级和列表是否被正确解析,直接阅读原始 JSON 过于繁琐。
如何使用
上传品牌指南 PDF,勾选“使用结构树”,并将节点类型过滤设置为“全部节点”。
示例配置
{
  "useStructTree": true,
  "nodeFilter": "all"
}
效果
生成包含 20 个语义节点的 HTML 浏览报告,清晰展示了文档的标题层级、段落内容及页码,确认解析无误。

2. 提取并核对财务报表中的表格

财务分析师
背景原因
需要从长达 50 页的年度财务报告中提取特定的营收数据表格。
解决问题
报告中包含大量无关文本,手动寻找和确认表格结构非常耗时。
如何使用
上传财务报告 PDF,在页码范围输入“10-15”,选择节点类型过滤为“仅表格”,并输入搜索词“revenue”。
示例配置
{
  "pages": "10-15",
  "nodeFilter": "table",
  "searchTerm": "revenue"
}
效果
报告仅展示第 10 到 15 页中包含“revenue”关键词的表格节点,并附带精确的边界框坐标,极大提升了核对效率。

用 Samples 测试

json, pdf, file

相关专题

常见问题

这个工具支持哪些节点类型的过滤?

支持过滤显示全部节点,或者仅显示标题(heading)、表格(table)和列表(list)节点,方便您快速定位特定结构。

如何只解析 PDF 的部分页面?

您可以在“页码范围”输入框中指定需要解析的页面,例如输入“1-5,8”即可仅提取这些页面的结构数据。

什么是边界框(Bounding Box)?

边界框(BBox)是记录文本或表格在 PDF 页面上具体物理位置的坐标数据,有助于进行精准的版面分析和内容定位。

“脱敏敏感数据”功能有什么作用?

开启该功能后,工具会在解析过程中自动识别并遮蔽常见的敏感信息,保护数据隐私。

导出的结果是什么格式?

工具会直接在浏览器中生成一份交互式的 HTML 报告,您可以在其中直观地浏览 JSON 结构和语义节点。

API 文档

请求端点

POST /zh/api/tools/pdf-to-json-structure-explorer

请求参数

参数名 类型 必填 描述
pdfFile file (需要先上传) -
useStructTree checkbox -
sanitizeSensitiveData checkbox -
pages text -
nodeFilter select -
searchTerm text -

文件类型参数需要先通过 POST /upload/pdf-to-json-structure-explorer 上传获取 filePath,然后将 filePath 传递给对应的文件字段。

响应格式

{
  "result": "
Processed HTML content
", "error": "Error message (optional)", "message": "Notification message (optional)", "metadata": { "key": "value" } }
HTML: HTML

AI MCP 文档

将此工具添加到您的 MCP 服务器配置中:

{
  "mcpServers": {
    "elysiatools-pdf-to-json-structure-explorer": {
      "name": "pdf-to-json-structure-explorer",
      "description": "提取 PDF 的 OpenDataLoader JSON 结构,并以浏览器视图查看标题、段落、表格、列表、页码和 bbox",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=pdf-to-json-structure-explorer",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

你可以串联多个工具,比如:`https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`,最多20个。

支持 URL 文件链接或 Base64 编码作为文件参数。

如果遇见问题,请联系我们:[email protected]