分类

PDF OCR 文本层

为扫描版 PDF 添加 OCR 文本层,使其可搜索/可复制

先将PDF页面转为图片,再用 Tesseract 逐页OCR并合并,输出可检索可复制的文本层PDF。

示例结果

2 个示例

标准OCR文本层

使用英文OCR、300DPI和默认分割模式生成可搜索PDF

pdf-ocr-text-layer-example1.pdf 查看文件
查看输入参数
{ "sourceFile": "/Users/quyue/www/elysia-tools/public/samples/pdf/pdf-2026-02-19-source-4pages.pdf", "language": "eng", "dpi": 300, "oem": 1, "psm": 3 }

快速OCR(低DPI)

使用200DPI和psm=6提升处理速度并减小输出体积

pdf-ocr-text-layer-example2.pdf 查看文件
查看输入参数
{ "sourceFile": "/Users/quyue/www/elysia-tools/public/samples/pdf/pdf-2026-02-19-source-4pages.pdf", "language": "eng", "dpi": 200, "oem": 1, "psm": 6 }

Click to upload file or drag and drop file here

Maximum file size: 500MB Supported formats: application/pdf

关键信息

分类
PDF Tools
输入类型
file, text, number
输出类型
file
样本覆盖
4
支持 API
Yes

概览

先将PDF页面转为图片,再用 Tesseract 逐页OCR并合并,输出可检索可复制的文本层PDF。

适用场景

  • 当你需要在浏览器中快速 process pdf, text 内容时,可以使用它。
  • 适合需要可重复输入和快速结果的 pdf tools 工作流。
  • 如果你想先用真实文件验证流程,再迁移到代码或 API 调用,这个工具很合适。

工作原理

  • 先输入 源PDF文件, OCR语言, 输入DPI, OCR引擎模式。
  • 工具会处理请求并返回 file 类型的结果。
  • 针对文件类流程,建议先使用具有代表性的 pdf, text 测试文件验证边界情况和输出质量。

使用场景

在调试或 QA 场景下处理 pdf, text 数据。
在接入 API 或自动化流程前先验证输出结果。
使用代表性样本文件和边界案例测试整个流程。

用 Samples 测试

pdf, text, file

相关专题

常见问题

PDF OCR 文本层 是做什么的?

PDF OCR 文本层 可帮助你在线 process pdf, text 内容,无需单独编写本地脚本或应用。

什么时候适合用这个工具?

当你需要快速完成 process 流程、验证输出结果,或需要一个浏览器内的 pdf tools 工具时,就适合使用它。

可以用样本数据测试这个工具吗?

可以。页面会推荐相关样本文件,方便你立即开始测试。

PDF OCR 文本层 支持哪些输入?

PDF OCR 文本层 支持 源PDF文件, OCR语言, 输入DPI, OCR引擎模式 and supports file uploads for 1 field.

PDF OCR 文本层 有 API 吗?

有。工具页包含可供脚本调用的 API 端点,方便你从手动测试过渡到自动化使用。

API 文档

请求端点

POST /zh/api/tools/pdf-ocr-text-layer

请求参数

参数名 类型 必填 描述
sourceFile file (需要先上传) -
language text -
dpi number -
oem number -
psm number -

文件类型参数需要先通过 POST /upload/pdf-ocr-text-layer 上传获取 filePath,然后将 filePath 传递给对应的文件字段。

响应格式

{
  "filePath": "/public/processing/randomid.ext",
  "fileName": "output.ext",
  "contentType": "application/octet-stream",
  "size": 1024,
  "metadata": {
    "key": "value"
  },
  "error": "Error message (optional)",
  "message": "Notification message (optional)"
}
文件: 文件

AI MCP 文档

将此工具添加到您的 MCP 服务器配置中:

{
  "mcpServers": {
    "elysiatools-pdf-ocr-text-layer": {
      "name": "pdf-ocr-text-layer",
      "description": "为扫描版 PDF 添加 OCR 文本层,使其可搜索/可复制",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=pdf-ocr-text-layer",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

你可以串联多个工具,比如:`https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`,最多20个。

支持 URL 文件链接或 Base64 编码作为文件参数。

如果遇见问题,请联系我们:[email protected]