PDF去噪

使用真实图像处理算法去除扫描PDF页面的视觉噪点——椒盐噪点、随机颗粒以及背景灰雾。文字页保留为可搜索的矢量内容。

使用纯JavaScript流水线(无需外部二进制文件)和真实的图像处理算子清理带噪点的扫描PDF页面。

按页面内容类型分别处理(重要):

  • 图片页(扫描文档):栅格化→去噪→嵌入。这是去噪真正有用的场景。
  • 文字页(含文字+图片混合页):原样保留矢量内容,文字、字体、可搜索性完整保留。
  • 空白页:原样保留。

如果扫描件带有OCR文字层(被识别为"文字页")但其底层图像仍有噪点,请启用"栅格化文字页"强制处理。

去噪模式(均为真实算法):

  • 自动:3x3中值滤波 + 孤立斑点去除。保留色调与边缘的均衡清理——推荐默认。
  • 中值滤波:3x3逐通道中值滤波(1-3次)。椒盐/脉冲噪点的经典克星。
  • 二值化:Otsu自适应阈值。将背景灰雾塌缩为纯白、前景渲染为纯黑——尤其适合扫描文字的清晰度。

工作原理(图片页):

  1. 使用 pdf.js 将图片页栅格化
  2. 对原始像素缓冲区运行所选去噪算子
  3. 将清理后的图像嵌入新PDF

示例结果

2 个示例

自动去除扫描件噪点

对带噪点的扫描图片页进行均衡的中值滤波+去斑处理,同时保留矢量文字页

pdf_denoised.pdf 查看文件
查看输入参数
{ "sourceFile": "/public/samples/pdf/sample-multipage.pdf", "mode": "auto", "strength": 2, "rasterizeText": "false", "pageRange": "" }

二值化褪色扫描件以提升清晰度

应用Otsu阈值,将模糊发灰的扫描件转为清晰的黑白文字

pdf_denoised.pdf 查看文件
查看输入参数
{ "sourceFile": "/public/samples/pdf/sample-multipage.pdf", "mode": "binarize", "rasterizeText": "false", "pageRange": "1-3" }

Click to upload file or drag and drop file here

Maximum file size: 100MB Supported formats: application/pdf

自动:均衡的中值+去斑(保留色调)。中值滤波:最适合椒盐/脉冲噪点。二值化:Otsu阈值将发灰背景变白、文字变黑。

3x3中值滤波次数(1-3)。值越大去噪越强但画面越柔和。二值化模式下忽略。

默认情况下文字页作为可搜索矢量内容保留(不去噪)。仅当OCR扫描件底层图像有噪点时启用,会损失文字可选性。

指定要去噪的页面(例如:1-3,5,7-9)。留空则处理所有页面。

关键信息

分类
文档与 PDF
输入类型
file, select, number, text
输出类型
file
样本覆盖
4
支持 API
Yes

概览

PDF去噪工具采用真实的图像处理算法,能够高效清除扫描版PDF页面中的椒盐噪点、随机颗粒与背景灰雾,同时智能识别并保留原生矢量文字页的可搜索性,帮助您快速提升扫描文档的清晰度与可读性。

适用场景

  • 扫描版PDF文档中存在大量细小墨点、椒盐噪点或纸张随机颗粒,影响阅读体验时。
  • 影印件背景发灰、有暗影或灰雾,需要将背景调至纯白、文字调至纯黑以提升对比度时。
  • 带有OCR文字层的PDF扫描件底层图像仍有噪点,需要强制栅格化并清理背景时。

工作原理

  • 解析PDF文档并识别页面类型,将扫描图片页进行栅格化处理,而原生矢量文字页和空白页则原样保留以维持可搜索性。
  • 对栅格化后的像素缓冲区运行所选的去噪算子,如中值滤波、Otsu自适应二值化或自动去斑处理。
  • 将清理重建后的高清晰度图像重新嵌入并生成新的PDF文件。

使用场景

历史文献与档案数字化:清除老旧扫描书籍中的纸张黄斑、墨迹污点和颗粒噪点。
打印合同与发票清理:通过二值化算法消除打印件背景灰雾,使合同文字更加黑白分明、易于打印。
课件与讲义优化:去除复印版PDF课件上的杂乱黑点,提升学生阅读和打印时的视觉舒适度。

用户案例

1. 自动清理多页扫描合同噪点

律师助理
背景原因
需要归档一份多页的扫描版合同PDF,但页面上有许多细小的复印噪点和墨点,影响专业度。
解决问题
批量清除扫描页面的噪点,同时必须保留合同中原本就是矢量文字的附录页的可搜索性。
如何使用
上传合同PDF,选择“自动(中值滤波+去斑)”模式,设置强度为2,保持“栅格化文字页”为“否”,直接运行处理。
示例配置
{
  "mode": "auto",
  "strength": 2,
  "rasterizeText": "false",
  "pageRange": ""
}
效果
扫描页面中的细小墨点被成功清除,而包含矢量文字的附录页完好无损,文字依然可以复制和搜索。

2. 提升发灰文献的文字对比度

历史研究员
背景原因
获得了一份早期文献的PDF扫描件,由于年代久远,页面背景严重发灰,文字模糊不清。
解决问题
需要将前3页背景彻底变白、文字变黑,以方便打印阅读。
如何使用
上传文献PDF,将去噪模式设置为“二值化(Otsu,清晰黑白文字)”,在页面范围中输入“1-3”,运行处理。
示例配置
{
  "mode": "binarize",
  "rasterizeText": "false",
  "pageRange": "1-3"
}
效果
前3页的灰色背景全部塌缩为纯白,文字渲染为纯黑,对比度大幅提升,后续页面保持原样。

用 Samples 测试

pdf, image, video

相关专题

常见问题

去噪后PDF中的文字还能复制和搜索吗?

原生矢量文字页会原样保留,文字依然可搜索。若启用了“栅格化文字页”强制去噪,文字将转化为图片,失去可选性。

什么是“二值化”模式?适合什么场景?

二值化采用Otsu自适应阈值算法,将发灰的背景变为纯白,文字变为纯黑,非常适合提升纯文字扫描件的清晰度。

“自动”模式和“中值滤波”模式有什么区别?

自动模式结合了3x3中值滤波与孤立斑点去除,能保留色调;中值滤波则专门针对椒盐和脉冲噪点进行多次平滑。

可以只对PDF的特定页面进行去噪吗?

可以,在“页面范围”中输入指定的页码或范围(例如“1-3,5”),未指定的页面将保持原样。

为什么有些带噪点的扫描件处理后没有变化?

如果扫描件含有OCR文字层,系统默认会将其识别为文字页而不做处理。此时需将“栅格化文字页”选项设置为“是”。

API 文档

请求端点

POST /zh/api/tools/pdf-denoise

请求参数

参数名 类型 必填 描述
sourceFile file (需要先上传) -
mode select 自动:均衡的中值+去斑(保留色调)。中值滤波:最适合椒盐/脉冲噪点。二值化:Otsu阈值将发灰背景变白、文字变黑。
strength number 3x3中值滤波次数(1-3)。值越大去噪越强但画面越柔和。二值化模式下忽略。
rasterizeText select 默认情况下文字页作为可搜索矢量内容保留(不去噪)。仅当OCR扫描件底层图像有噪点时启用,会损失文字可选性。
pageRange text 指定要去噪的页面(例如:1-3,5,7-9)。留空则处理所有页面。

文件类型参数需要先通过 POST /upload/pdf-denoise 上传获取 filePath,然后将 filePath 传递给对应的文件字段。

响应格式

{
  "filePath": "/public/processing/randomid.ext",
  "fileName": "output.ext",
  "contentType": "application/octet-stream",
  "size": 1024,
  "metadata": {
    "key": "value"
  },
  "error": "Error message (optional)",
  "message": "Notification message (optional)"
}
文件: 文件

AI MCP 文档

将此工具添加到您的 MCP 服务器配置中:

{
  "mcpServers": {
    "elysiatools-pdf-denoise": {
      "name": "pdf-denoise",
      "description": "使用真实图像处理算法去除扫描PDF页面的视觉噪点——椒盐噪点、随机颗粒以及背景灰雾。文字页保留为可搜索的矢量内容。",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=pdf-denoise",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

你可以串联多个工具,比如:`https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`,最多20个。

支持 URL 文件链接或 Base64 编码作为文件参数。

如果遇见问题,请联系我们:[email protected]