关键信息
- 分类
- 文档与 PDF
- 输入类型
- file, select, number, text
- 输出类型
- file
- 样本覆盖
- 4
- 支持 API
- Yes
概览
PDF去噪工具采用真实的图像处理算法,能够高效清除扫描版PDF页面中的椒盐噪点、随机颗粒与背景灰雾,同时智能识别并保留原生矢量文字页的可搜索性,帮助您快速提升扫描文档的清晰度与可读性。
适用场景
- •扫描版PDF文档中存在大量细小墨点、椒盐噪点或纸张随机颗粒,影响阅读体验时。
- •影印件背景发灰、有暗影或灰雾,需要将背景调至纯白、文字调至纯黑以提升对比度时。
- •带有OCR文字层的PDF扫描件底层图像仍有噪点,需要强制栅格化并清理背景时。
工作原理
- •解析PDF文档并识别页面类型,将扫描图片页进行栅格化处理,而原生矢量文字页和空白页则原样保留以维持可搜索性。
- •对栅格化后的像素缓冲区运行所选的去噪算子,如中值滤波、Otsu自适应二值化或自动去斑处理。
- •将清理重建后的高清晰度图像重新嵌入并生成新的PDF文件。
使用场景
用户案例
1. 自动清理多页扫描合同噪点
律师助理- 背景原因
- 需要归档一份多页的扫描版合同PDF,但页面上有许多细小的复印噪点和墨点,影响专业度。
- 解决问题
- 批量清除扫描页面的噪点,同时必须保留合同中原本就是矢量文字的附录页的可搜索性。
- 如何使用
- 上传合同PDF,选择“自动(中值滤波+去斑)”模式,设置强度为2,保持“栅格化文字页”为“否”,直接运行处理。
- 示例配置
-
{ "mode": "auto", "strength": 2, "rasterizeText": "false", "pageRange": "" } - 效果
- 扫描页面中的细小墨点被成功清除,而包含矢量文字的附录页完好无损,文字依然可以复制和搜索。
2. 提升发灰文献的文字对比度
历史研究员- 背景原因
- 获得了一份早期文献的PDF扫描件,由于年代久远,页面背景严重发灰,文字模糊不清。
- 解决问题
- 需要将前3页背景彻底变白、文字变黑,以方便打印阅读。
- 如何使用
- 上传文献PDF,将去噪模式设置为“二值化(Otsu,清晰黑白文字)”,在页面范围中输入“1-3”,运行处理。
- 示例配置
-
{ "mode": "binarize", "rasterizeText": "false", "pageRange": "1-3" } - 效果
- 前3页的灰色背景全部塌缩为纯白,文字渲染为纯黑,对比度大幅提升,后续页面保持原样。
用 Samples 测试
pdf, image, video相关专题
常见问题
去噪后PDF中的文字还能复制和搜索吗?
原生矢量文字页会原样保留,文字依然可搜索。若启用了“栅格化文字页”强制去噪,文字将转化为图片,失去可选性。
什么是“二值化”模式?适合什么场景?
二值化采用Otsu自适应阈值算法,将发灰的背景变为纯白,文字变为纯黑,非常适合提升纯文字扫描件的清晰度。
“自动”模式和“中值滤波”模式有什么区别?
自动模式结合了3x3中值滤波与孤立斑点去除,能保留色调;中值滤波则专门针对椒盐和脉冲噪点进行多次平滑。
可以只对PDF的特定页面进行去噪吗?
可以,在“页面范围”中输入指定的页码或范围(例如“1-3,5”),未指定的页面将保持原样。
为什么有些带噪点的扫描件处理后没有变化?
如果扫描件含有OCR文字层,系统默认会将其识别为文字页而不做处理。此时需将“栅格化文字页”选项设置为“是”。