PDF 表格提取到 CSV/JSON

用 OpenDataLoader 从 PDF 中抽取表格,并导出为结构化 JSON、扁平 CSV 或 HTML 表格

上传 PDF 后,工具会先通过 OpenDataLoader 识别语义表格节点,再按你选择的格式导出。JSON 会保留页码、bbox、行列数量和完整单元格内容;CSV 会拉平成 table/page/row/column/value;HTML 会生成逐表格的可视化预览。

示例结果

1 个示例

提取报告表格用于数据分析

真实 sample 抽取出了 2 个表格,并保存为结构化 JSON。

pdf-table-extractor-to-csv-json-example1.json 查看文件
查看输入参数
{ "pdfFile": "/public/samples/pdf/financial-report-example1.pdf", "exportFormat": "json", "tableMethod": "cluster", "pages": "", "useStructTree": false }

Click to upload file or drag and drop file here

Maximum file size: 10MB Supported formats: application/pdf

关键信息

分类
数据与表格
输入类型
file, select, text, checkbox
输出类型
file
样本覆盖
4
支持 API
Yes

概览

这款 PDF 表格提取工具利用 OpenDataLoader 技术,能够精准识别并抽取 PDF 文档中的复杂表格数据。你可以将提取出的表格一键导出为结构化的 JSON、扁平化的 CSV 或直观的 HTML 格式。无论是处理财务报表、科研论文还是包含大量数据的商业文档,该工具都能帮你免去手动复制粘贴的烦恼,快速实现数据的二次分析与利用。

适用场景

  • 需要从财务年报或商业报告中批量提取数据表格进行二次分析时。
  • 开发人员需要将 PDF 格式的科研论文或技术文档中的表格解析为结构化 JSON 数据时。
  • 需要将 PDF 账单、发票或统计报表中的表格转换为 CSV 格式以便在 Excel 中处理时。

工作原理

  • 上传需要提取表格的 PDF 文件,并可选择性地输入需要处理的特定页码范围(如 1,3,5-7)。
  • 选择目标导出格式(JSON、CSV 或 HTML),并根据表格复杂度选择默认或聚类增强的检测方式。
  • 工具底层调用 OpenDataLoader 引擎,自动识别 PDF 中的语义表格节点并解析行列结构。
  • 处理完成后,直接下载提取好的结构化数据文件,JSON 格式会保留完整的页码、坐标及单元格内容。

使用场景

财务分析师从数百页的 PDF 审计报告中快速提取利润表和资产负债表数据至 CSV。
数据工程师批量解析行业白皮书 PDF,将统计表格转换为 JSON 格式存入数据库。
研究人员将学术文献中的实验结果表格提取为 HTML 格式,方便直接嵌入到网页或笔记中。

用户案例

1. 提取财务报告表格用于数据分析

数据分析师
背景原因
分析师收到一份 50 页的 PDF 格式公司年报,需要提取第 12 页和第 15 页的财务数据进行建模。
解决问题
手动复制 PDF 表格会导致格式错乱,且难以保留表格的行列结构。
如何使用
上传年报 PDF,在页码范围输入 `12,15`,导出格式选择 `JSON`,检测方式选择 `聚类增强`。
示例配置
导出格式: JSON, 表格检测方式: cluster, 页码范围: 12,15
效果
成功提取出指定页的表格,生成包含页码、坐标和完整单元格内容的结构化 JSON 文件,直接用于程序解析。

2. 将学术论文表格转换为 Excel 可读格式

科研人员
背景原因
科研人员需要汇总多篇 PDF 格式学术论文中的实验对比数据,以便在 Excel 中绘制图表。
解决问题
PDF 中的无边框表格极难选中和复制,直接粘贴到 Excel 会变成一团乱码。
如何使用
上传论文 PDF,导出格式选择 `CSV`,并勾选 `使用结构树` 以辅助识别复杂排版。
示例配置
导出格式: CSV, 使用结构树: true
效果
工具将 PDF 中的表格拉平并导出为 CSV 文件,科研人员可直接用 Excel 打开,行列数据清晰对应。

用 Samples 测试

json, csv, html

相关专题

常见问题

支持导出哪些格式?

支持导出为结构化 JSON、扁平化 CSV 以及可视化的 HTML 表格。

什么是“聚类增强”检测方式?

聚类增强(Cluster)是一种更高级的表格检测算法,适合处理无边框或排版复杂的表格,能有效提高行列识别的准确率。

可以只提取 PDF 中某几页的表格吗?

可以,在“页码范围”输入框中指定需要提取的页码即可,例如输入“1,3,5-7”将只处理这些特定页。

导出的 JSON 包含哪些信息?

导出的 JSON 数据不仅包含单元格的文本内容,还会保留表格所在的页码、边界框坐标(bbox)以及行列数量等结构化信息。

为什么有些表格提取出来行列错乱?

可能是因为 PDF 扫描质量差或表格排版过于特殊。建议尝试勾选“使用结构树”或将检测方式切换为“聚类增强”来改善提取效果。

API 文档

请求端点

POST /zh/api/tools/pdf-table-extractor-to-csv-json

请求参数

参数名 类型 必填 描述
pdfFile file (需要先上传) -
exportFormat select -
tableMethod select -
pages text -
useStructTree checkbox -

文件类型参数需要先通过 POST /upload/pdf-table-extractor-to-csv-json 上传获取 filePath,然后将 filePath 传递给对应的文件字段。

响应格式

{
  "filePath": "/public/processing/randomid.ext",
  "fileName": "output.ext",
  "contentType": "application/octet-stream",
  "size": 1024,
  "metadata": {
    "key": "value"
  },
  "error": "Error message (optional)",
  "message": "Notification message (optional)"
}
文件: 文件

AI MCP 文档

将此工具添加到您的 MCP 服务器配置中:

{
  "mcpServers": {
    "elysiatools-pdf-table-extractor-to-csv-json": {
      "name": "pdf-table-extractor-to-csv-json",
      "description": "用 OpenDataLoader 从 PDF 中抽取表格,并导出为结构化 JSON、扁平 CSV 或 HTML 表格",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=pdf-table-extractor-to-csv-json",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

你可以串联多个工具,比如:`https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`,最多20个。

支持 URL 文件链接或 Base64 编码作为文件参数。

如果遇见问题,请联系我们:[email protected]