关键信息
- 分类
- 文档与 PDF
- 输入类型
- file, text, number
- 输出类型
- file
- 样本覆盖
- 4
- 支持 API
- Yes
概览
PDF OCR 文本层工具通过先进的 OCR 技术,为扫描版 PDF 文档添加可搜索和可复制的文本层,让原本无法选中的图片型文档瞬间变得高效易用。
适用场景
- •需要从扫描件或纸质文档的 PDF 中提取文字内容时。
- •希望对归档的扫描版 PDF 进行全文搜索以快速定位信息时。
- •需要将图片格式的 PDF 转换为可编辑、可复制的文档格式时。
工作原理
- •上传您的扫描版 PDF 文件。
- •根据文档语言和清晰度,选择合适的 OCR 语言及 DPI 设置。
- •工具将自动将页面转换为图像,利用 Tesseract 引擎进行逐页识别。
- •系统将识别出的文本层与原文档合并,生成可搜索的 PDF 文件。
使用场景
用户案例
1. 标准 OCR 文本层生成
- 背景原因
- 用户拥有大量扫描的英文合同,无法直接复制其中的条款。
- 解决问题
- 需要将这些扫描件转换为可搜索的 PDF,以便在合同库中快速查找特定条款。
- 如何使用
- 上传 PDF 文件,保持默认的 300 DPI 和 eng 语言设置进行处理。
- 示例配置
-
language: eng, dpi: 300, oem: 1, psm: 3 - 效果
- 生成了一个保留原排版且支持全文搜索的 PDF 文件。
2. 快速 OCR 处理
- 背景原因
- 用户需要处理一份页数较多的扫描文档,对识别速度有较高要求。
- 解决问题
- 在保证基本识别准确率的前提下,尽可能缩短处理时间并控制文件体积。
- 如何使用
- 上传文件,将 DPI 调整为 200,并将页面分割模式(psm)设置为 6 以优化处理效率。
- 示例配置
-
language: eng, dpi: 200, oem: 1, psm: 6 - 效果
- 快速生成了可搜索的 PDF,且文件体积较小,便于网络传输。
用 Samples 测试
pdf, text, file相关专题
常见问题
什么是 OCR 文本层?
OCR 文本层是在原有的 PDF 图片上方叠加的一层透明文字,它保留了原文档的视觉外观,同时赋予了文档可搜索和可复制的功能。
支持哪些语言的识别?
工具支持多种语言识别,您可以通过设置参数(如 eng 或 eng+chi_sim)来指定识别的语言类型。
DPI 设置越高越好吗?
通常 300 DPI 是平衡识别准确率与处理速度的最佳选择。过高的 DPI 会增加处理时间,过低则可能影响识别精度。
处理后的 PDF 文件大小会变大吗?
由于添加了额外的文本层,文件大小可能会略有增加,但通常在可接受范围内。
该工具支持批量处理吗?
目前该工具支持单文件上传处理,您可以逐个上传并转换您的扫描文档。