扫描版 PDF OCR 转 Markdown

将扫描版或图片型 PDF 转成 Markdown,优先走 OpenDataLoader hybrid OCR,并在后端不可用时优雅回退

上传扫描版 PDF 后,工具会优先尝试 OpenDataLoader hybrid OCR,将结果导出为 Markdown;如果当前环境没有 hybrid 后端,它也会自动回退到标准提取,并在 metadata 中清楚标记回退原因。

示例结果

1 个示例

将 OCR 风格 PDF 转成 Markdown

真实 sample 会输出可复用的 Markdown;仓库内示例默认走本地提取,便于稳定复现。

scanned-pdf-ocr-to-markdown-example1.md 查看文件
查看输入参数
{ "pdfFile": "/public/samples/pdf/pdf-ocr-text-layer-example1.pdf", "pages": "", "keepLineBreaks": true, "includePageSeparators": true, "hybridBackendUrl": "", "preferHybridOcr": false }

Click to upload file or drag and drop file here

Maximum file size: 10MB Supported formats: application/pdf

关键信息

分类
AI 与生成器
输入类型
file, text, checkbox
输出类型
file
样本覆盖
4
支持 API
Yes

概览

扫描版 PDF OCR 转 Markdown 工具利用 OpenDataLoader 的混合 OCR 技术,能够高效地将扫描件或纯图片格式的 PDF 文档转换为结构化的 Markdown 文件。该工具支持自定义页码范围,并具备智能回退机制,当混合 OCR 后端不可用时,会自动切换至标准提取模式,确保转换流程的稳定性与结果的可用性。

适用场景

  • 需要将纸质文档的扫描件转换为可编辑、可搜索的 Markdown 文本时。
  • 处理包含大量图片且无法直接复制文字的 PDF 报告或电子书时。
  • 准备将 PDF 内容导入 Obsidian、Notion 等支持 Markdown 的知识库管理工具时。

工作原理

  • 用户上传 PDF 文件并根据需要指定转换的页码范围(如 1,3,5-10)。
  • 系统优先调用 OpenDataLoader 混合 OCR 引擎对图像内容进行深度文字识别与结构解析。
  • 若混合 OCR 后端未响应或不可用,系统将自动回退至标准提取模式并记录回退原因。
  • 根据用户设置的换行和分页选项,将识别结果格式化并导出为 Markdown 文件。

使用场景

数字化历史档案:将旧版纸质书籍的扫描 PDF 批量转换为 Markdown 格式进行数字化存档。
调研报告整理:从图片格式的行业报告中快速提取文字,方便引用到个人笔记或研究论文中。
自动化文档处理:将扫描合同或发票 PDF 转换为 Markdown,以便后续进行 AI 摘要提取或数据分析。

用户案例

1. 数字化纸质调研报告

市场分析师
背景原因
分析师收到一份只有扫描图片的行业调研报告,需要将其中的文字提取出来编写周报。
解决问题
无法直接从 PDF 中复制文字,手动录入效率极低且容易出错。
如何使用
上传扫描版 PDF,在页码范围输入需要提取的页面,勾选“保留换行”,点击转换。
示例配置
{"pages": "1-10", "keepLineBreaks": true, "preferHybridOcr": true}
效果
获得了一个包含前 10 页内容的 Markdown 文件,文字识别准确,可直接粘贴到分析报告中。

2. 整理学术论文扫描件

在校研究生
背景原因
导师提供了一些早期的学术论文扫描件,学生需要将其整理成电子笔记进行文献综述。
解决问题
论文页数较多,且需要保留原始的分页感以便后续对照原件校对。
如何使用
上传论文 PDF,开启“插入分页标记”选项,指定需要转换的关键页码。
示例配置
{"pages": "5,8,12-15", "includePageSeparators": true}
效果
生成的 Markdown 文件在指定页面之间插入了清晰的分隔符,极大地方便了文献的校对与整理。

用 Samples 测试

markdown, pdf, image

相关专题

常见问题

该工具支持哪些类型的 PDF?

主要针对扫描版 PDF 或纯图片 PDF,同时也支持包含文字层的混合型 PDF 文档。

转换后会保留原始排版吗?

工具会将内容转换为 Markdown 语法,保留基本的文本段落结构,但复杂的视觉布局会进行简化处理。

什么是“混合 OCR”模式?

这是一种结合了多种识别算法的高级模式,能更精准地处理复杂页面布局,提高文字识别的准确度。

如果 OCR 识别失败了会怎样?

工具会自动回退到标准提取模式,并在生成的元数据中明确标记回退原因,确保您仍能获得基础文本。

可以只转换 PDF 的特定页面吗?

可以,在“页码范围”选项中输入具体的页码或范围(例如 1,3,5-7)即可实现局部转换。

API 文档

请求端点

POST /zh/api/tools/scanned-pdf-ocr-to-markdown

请求参数

参数名 类型 必填 描述
pdfFile file (需要先上传) -
pages text -
keepLineBreaks checkbox -
includePageSeparators checkbox -
hybridBackendUrl text -
preferHybridOcr checkbox -

文件类型参数需要先通过 POST /upload/scanned-pdf-ocr-to-markdown 上传获取 filePath,然后将 filePath 传递给对应的文件字段。

响应格式

{
  "filePath": "/public/processing/randomid.ext",
  "fileName": "output.ext",
  "contentType": "application/octet-stream",
  "size": 1024,
  "metadata": {
    "key": "value"
  },
  "error": "Error message (optional)",
  "message": "Notification message (optional)"
}
文件: 文件

AI MCP 文档

将此工具添加到您的 MCP 服务器配置中:

{
  "mcpServers": {
    "elysiatools-scanned-pdf-ocr-to-markdown": {
      "name": "scanned-pdf-ocr-to-markdown",
      "description": "将扫描版或图片型 PDF 转成 Markdown,优先走 OpenDataLoader hybrid OCR,并在后端不可用时优雅回退",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=scanned-pdf-ocr-to-markdown",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

你可以串联多个工具,比如:`https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`,最多20个。

支持 URL 文件链接或 Base64 编码作为文件参数。

如果遇见问题,请联系我们:[email protected]