PDF转XML

将PDF文档转换为结构化XML格式,保留内容层级

使用纯Node.js将PDF文档转换为结构化XML格式。

示例结果

1 个示例

PDF文档转XML

将PDF文档转换为结构化XML格式

pdf-to-xml-output.xml 查看文件
查看输入参数
{ "sourceFile": "/public/samples/pdf/document.pdf", "outputMode": "structured", "includeDeclaration": true }

Click to upload file or drag and drop file here

Maximum file size: 50MB Supported formats: application/pdf

关键信息

分类
文档与 PDF
输入类型
file, select, checkbox
输出类型
file
样本覆盖
4
支持 API
Yes

概览

PDF转XML工具能够快速将PDF文档转换为结构化的XML格式,保留文档的内容层级与文本结构。您可以通过选择紧凑(Compact)或美化(Pretty-printed)输出模式,并自主决定是否包含XML声明,轻松实现PDF数据的结构化提取与后续处理。

适用场景

  • 需要从PDF格式的报告、论文或发票中提取结构化文本数据进行二次开发或分析时。
  • 需要将不可编辑的PDF文档内容导入到支持XML格式的数据管理系统或数据库中时。
  • 在自动化文档处理流程中,需要将PDF转换为带有层级标签的XML标记语言时。

工作原理

  • 上传需要转换的PDF文件(大小限制在50MB以内)。
  • 选择输出模式(紧凑的Compact XML或易读的美化Pretty-printed XML),并设置是否包含XML声明。
  • 点击转换按钮,系统将解析PDF的文本与层级结构并生成对应的XML文件。
  • 下载转换完成的XML文档。

使用场景

学术文献数字化:将PDF格式的学术论文转换为XML,便于进行文本挖掘和文献分类。
企业报表数据提取:批量将PDF财务报表转换为XML格式,以便导入企业ERP或数据分析系统。
电子书与文档归档:将PDF说明书或电子书转换为结构化的XML文档,方便长期保存和跨平台读取。

用户案例

1. 提取PDF财务报表数据

财务数据分析师
背景原因
公司的年度财务报告全部为PDF格式,分析师需要将这些报告中的数据导入到内部的分析软件中,但软件只支持XML格式输入。
解决问题
手动复制PDF中的表格和文本不仅效率低下,而且容易出错。
如何使用
上传财务报告PDF,将输出模式设置为“Pretty-printed XML”(美化XML)以便后续核对,并勾选“包含XML声明”,然后启动转换。
示例配置
输出模式: Pretty-printed XML, 包含XML声明: 开启
效果
成功获得结构清晰、带有缩进的XML文件,分析软件顺利读取并解析了所有财务数据。

2. 自动化系统对接的紧凑XML生成

后端开发工程师
背景原因
工程师正在开发一个文档处理管道,需要将用户上传的PDF合同转换为XML,然后通过API发送给第三方系统。
解决问题
第三方系统对传输的数据包大小有限制,需要尽可能减小生成的XML文件体积。
如何使用
在转换选项中将输出模式设置为“Compact XML”(紧凑XML),并取消勾选“包含XML声明”,上传PDF合同进行转换。
示例配置
输出模式: Compact XML, 包含XML声明: 关闭
效果
生成了去除了冗余空格和换行符的紧凑型XML文件,文件体积显著减小,成功通过API发送。

用 Samples 测试

xml, pdf, file

相关专题

常见问题

转换后的XML会保留PDF的排版格式吗?

转换会保留文本的内容层级和结构,但不会保留字体、颜色等视觉排版样式。

什么是“紧凑”和“美化”输出模式?

紧凑模式会压缩XML代码以减小文件体积;美化模式则会添加缩进和换行,方便人类阅读。

转换支持扫描件或图片格式的PDF吗?

本工具主要针对含有文本图层的可编辑PDF。如果是纯图片或扫描件PDF,可能无法提取出文本。

转换时可以去掉XML文件开头的声明吗?

可以,在转换前取消勾选“包含XML声明”选项即可。

上传的PDF文件有大小限制吗?

有的,单个PDF文件的大小上限为50MB。

API 文档

请求端点

POST /zh/api/tools/pdf-to-xml

请求参数

参数名 类型 必填 描述
sourceFile file (需要先上传) -
outputMode select -
includeDeclaration checkbox -

文件类型参数需要先通过 POST /upload/pdf-to-xml 上传获取 filePath,然后将 filePath 传递给对应的文件字段。

响应格式

{
  "filePath": "/public/processing/randomid.ext",
  "fileName": "output.ext",
  "contentType": "application/octet-stream",
  "size": 1024,
  "metadata": {
    "key": "value"
  },
  "error": "Error message (optional)",
  "message": "Notification message (optional)"
}
文件: 文件

AI MCP 文档

将此工具添加到您的 MCP 服务器配置中:

{
  "mcpServers": {
    "elysiatools-pdf-to-xml": {
      "name": "pdf-to-xml",
      "description": "将PDF文档转换为结构化XML格式,保留内容层级",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=pdf-to-xml",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

你可以串联多个工具,比如:`https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`,最多20个。

支持 URL 文件链接或 Base64 编码作为文件参数。

如果遇见问题,请联系我们:[email protected]