PDF 转结构化 Markdown 转换器

基于 OpenDataLoader 将 PDF 转成结构化 Markdown,支持 HTML 富文本、图片引用和分页标记

上传 PDF 后,工具会调用 OpenDataLoader 输出结构化 Markdown,可选择纯 Markdown、带 HTML 的 Markdown 或带图片引用的 Markdown。你还可以控制是否保留换行、插入分页符、使用 Tagged PDF 结构树以及是否对敏感信息脱敏。

示例结果

1 个示例

将品牌指南 PDF 转成可复用 Markdown

真实 sample 已输出 596 字节的 Markdown 文件,适合文档迁移和知识库入库。

pdf-to-structured-markdown-converter-example1.md 查看文件
查看输入参数
{ "pdfFile": "/public/samples/pdf/brand-guidelines-pdf-example1.pdf", "markdownOutput": "markdown", "keepLineBreaks": true, "useStructTree": true, "includePageSeparators": true, "sanitizeSensitiveData": false, "pages": "" }

Click to upload file or drag and drop file here

Maximum file size: 10MB Supported formats: application/pdf

关键信息

分类
开发与 Web
输入类型
file, select, checkbox, text
输出类型
file
样本覆盖
4
支持 API
Yes

概览

这款 PDF 转结构化 Markdown 转换器基于强大的 OpenDataLoader 引擎,能够将复杂的 PDF 文档精准转换为易于编辑和复用的 Markdown 文件。无论是提取纯文本、保留 HTML 富文本格式,还是提取图片引用,该工具都能轻松应对。你还可以自定义页码范围、保留换行符、插入分页标记,甚至对敏感数据进行脱敏,非常适合文档迁移、知识库构建和 AI 语料准备。

适用场景

  • 需要将产品手册或技术文档从 PDF 格式无缝迁移到基于 Markdown 的知识库(如 Notion、Obsidian)时。
  • 准备大语言模型(LLM)或 RAG 系统的训练语料,需要将非结构化的 PDF 转换为带有明确分页和段落标记的结构化文本时。
  • 需要提取长篇 PDF 中的特定页面内容,并希望保留原有的底层结构树(Tagged PDF)或图片引用时。

工作原理

  • 上传需要转换的 PDF 文件,并在“页码范围”中指定需要提取的页面(例如输入 1,3,5-7,留空则转换全本)。
  • 选择合适的 Markdown 输出格式(纯 Markdown、带 HTML 的 Markdown 或带图片的 Markdown)。
  • 根据需求勾选高级选项,如保留换行、使用结构树、插入分页标记或脱敏敏感数据。
  • 提交任务,工具将调用 OpenDataLoader 引擎解析 PDF,并生成结构化的 Markdown 文件供你下载。

使用场景

技术写作者将旧版 PDF 产品手册批量转换为 Markdown 格式,以便导入到现代静态网站生成器(如 Docusaurus)中进行二次编辑。
AI 工程师将行业报告和学术论文 PDF 转换为结构化文本,并插入分页标记,用于构建 RAG(检索增强生成)系统的高质量知识库。
数据分析师提取包含敏感信息的财务报告 PDF,在转换过程中自动脱敏,并保留原始的段落换行结构以供内部审查。

用户案例

1. 将品牌指南 PDF 转成可复用 Markdown

内容运营
背景原因
团队需要将一份 50 页的品牌指南 PDF 导入到企业内部的 Notion 知识库中。
解决问题
手动复制粘贴会导致格式错乱,且无法区分页面边界,重新排版极其耗时。
如何使用
上传品牌指南 PDF,选择“纯 Markdown”输出,勾选“保留换行”、“使用结构树”和“插入分页标记”。
示例配置
markdownOutput: markdown, keepLineBreaks: true, useStructTree: true, includePageSeparators: true
效果
成功导出一个结构清晰的 Markdown 文件,页面之间带有明确的分页标记,直接导入 Notion 后标题和段落格式完美保留。

2. 提取技术白皮书中的特定章节并保留图片

研发工程师
背景原因
工程师只需参考一份 200 页技术白皮书中的第 15 到 20 页,并且需要保留其中的架构图引用。
解决问题
整个 PDF 文件过大,且纯文本提取会丢失关键的图片信息,影响技术理解。
如何使用
上传白皮书 PDF,在“页码范围”输入 15-20,并将“Markdown 输出”设置为“带图片的 Markdown”。
示例配置
markdownOutput: markdown-with-images, pages: 15-20
效果
工具仅解析第 15 至 20 页,生成包含图片引用的 Markdown 文件,方便工程师直接插入到开发文档中。

用 Samples 测试

html, markdown, pdf

相关专题

常见问题

转换后的 Markdown 会保留 PDF 中的图片吗?

可以保留。在“Markdown 输出”选项中选择“带图片的 Markdown”,工具会在输出的文件中保留相应的图片引用。

我可以只转换 PDF 中的某几页吗?

可以。在“页码范围”输入框中指定需要转换的页码(例如输入 1,3,5-7),工具将仅提取并转换这些特定页面,节省处理时间。

什么是“使用结构树”选项?

该选项利用 Tagged PDF 的底层结构树来解析文档,能够更精准地识别标题、段落和列表,从而生成排版更准确的结构化 Markdown。

转换过程中可以自动隐藏敏感信息吗?

可以。勾选“脱敏敏感数据”选项后,工具会在解析过程中自动识别并脱敏常见的敏感信息,保护数据隐私。

导出的 Markdown 文件可以直接导入到知识库软件中吗?

完全可以。生成的标准 Markdown 文件兼容绝大多数主流知识库和笔记软件,如 Notion、Obsidian 和 GitHub Wiki。

API 文档

请求端点

POST /zh/api/tools/pdf-to-structured-markdown-converter

请求参数

参数名 类型 必填 描述
pdfFile file (需要先上传) -
markdownOutput select -
keepLineBreaks checkbox -
useStructTree checkbox -
includePageSeparators checkbox -
sanitizeSensitiveData checkbox -
pages text -

文件类型参数需要先通过 POST /upload/pdf-to-structured-markdown-converter 上传获取 filePath,然后将 filePath 传递给对应的文件字段。

响应格式

{
  "filePath": "/public/processing/randomid.ext",
  "fileName": "output.ext",
  "contentType": "application/octet-stream",
  "size": 1024,
  "metadata": {
    "key": "value"
  },
  "error": "Error message (optional)",
  "message": "Notification message (optional)"
}
文件: 文件

AI MCP 文档

将此工具添加到您的 MCP 服务器配置中:

{
  "mcpServers": {
    "elysiatools-pdf-to-structured-markdown-converter": {
      "name": "pdf-to-structured-markdown-converter",
      "description": "基于 OpenDataLoader 将 PDF 转成结构化 Markdown,支持 HTML 富文本、图片引用和分页标记",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=pdf-to-structured-markdown-converter",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

你可以串联多个工具,比如:`https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`,最多20个。

支持 URL 文件链接或 Base64 编码作为文件参数。

如果遇见问题,请联系我们:[email protected]