Очистка PDF от шума

Удаляет визуальный шум со страниц отсканированных PDF — «соль и перец», случайное зерно и слабую фоновую дымку — с помощью реальных алгоритмов обработки изображений. Текстовые страницы сохраняются как доступный для поиска векторный контент.

Очищает зашумлённые отсканированные страницы PDF на чистом JavaScript (без внешних бинарных файлов) с настоящими ядрами обработки изображений.

Адаптивная обработка по типу содержимого (важно):

  • Страницы-изображения (отсканированные документы): растрируются и очищаются от шума.
  • Текстовые страницы (включая текст + изображение): копируются как есть. Векторный текст, шрифты и поиск полностью сохраняются.
  • Пустые страницы: копируются как есть.

Если в скане есть текстовый слой OCR (он читается как «текстовая» страница), но само изображение всё равно зашумлено, включите «Растрировать текстовые страницы» для принудительной обработки.

Режимы очистки от шума (все — реальные алгоритмы):

  • Авто: медианный фильтр 3x3 + удаление изолированных пятен. Сбалансированная очистка, сохраняющая тон и контуры — рекомендуемый вариант по умолчанию.
  • Медианный: медианный фильтр 3x3 по каналам (1–3 прохода). Классическое средство от импульсного шума / «соли и перца».
  • Бинаризация: адаптивный порог Оцу. Превращает фоновую дымку в чистый белый, а передний план — в сплошной чёрный — идеально для читаемости отсканированного текста.

Примеры результатов

2 Примеры

Автоочистка зашумлённого скана

Сбалансированная медианная фильтрация + удаление пятен на зашумлённых страницах-изображениях скана с сохранением векторных текстовых страниц

pdf_denoised.pdf Показать файл
Показать параметры ввода
{ "sourceFile": "/public/samples/pdf/sample-multipage.pdf", "mode": "auto", "strength": 2, "rasterizeText": "false", "pageRange": "" }

Бинаризация выцветшего скана для читаемости

Применяет порог Оцу, превращая бледный мутный скан в чёткий чёрно-белый текст

pdf_denoised.pdf Показать файл
Показать параметры ввода
{ "sourceFile": "/public/samples/pdf/sample-multipage.pdf", "mode": "binarize", "rasterizeText": "false", "pageRange": "1-3" }

Click to upload file or drag and drop file here

Maximum file size: 100MB Supported formats: application/pdf

Авто: сбалансированные медиана + удаление пятен (сохраняет тон). Медианный: лучше всего для «соли и перца»/импульсного шума. Бинаризация: порог Оцу делает бледный фон белым, а текст — сплошным чёрным.

Число проходов медианного фильтра 3x3 (1–3). Больше = сильнее удаление шума, но больше сглаживание. В режиме бинаризации игнорируется.

По умолчанию текстовые страницы сохраняются как доступный для поиска векторный контент (без очистки). Включайте только для сканов с OCR, у которых зашумлён сам растр, допуская потерю выделения текста.

Укажите страницы для очистки (напр. 1-3,5,7-9). Пусто = все страницы.

Ключевые факты

Категория
Документы и PDF
Типы входных данных
file, select, number, text
Тип результата
file
Покрытие примерами
4
API доступен
Yes

Обзор

Инструмент «Очистка PDF от шума» позволяет быстро удалить визуальные дефекты, такие как эффект «соль и перец», случайное зерно и серую фоновую дымку с отсканированных страниц PDF-документов, сохраняя при этом оригинальный текстовый слой для поиска.

Когда использовать

  • При необходимости очистить отсканированные документы от серого фона, точек и шума для улучшения их читаемости.
  • Для подготовки сканов документов к последующему распознаванию текста (OCR) путем повышения контрастности.
  • Когда нужно убрать визуальный шум с картинок в PDF, но полностью сохранить векторный текст и возможность поиска на текстовых страницах.

Как это работает

  • Вы загружаете файл PDF и выбираете режим очистки: автоматический, медианный фильтр или бинаризацию по методу Оцу.
  • Инструмент анализирует страницы: текстовые и пустые страницы копируются без изменений для сохранения шрифтов, а страницы-изображения растрируются.
  • К растровым страницам применяются выбранные алгоритмы фильтрации для удаления шума или повышения контрастности.
  • Очищенные изображения объединяются с сохраненными текстовыми страницами в новый оптимизированный PDF-документ.

Сценарии использования

Очистка старых архивных документов и книг от временного пожелтения страниц и зернистости перед печатью.
Повышение контрастности блеклых сканов договоров и квитанций для улучшения их читаемости на мобильных устройствах.
Подготовка зашумленных PDF-файлов к архивации с сохранением возможности выделения и поиска текста.

Примеры

1. Автоматическое удаление шума со сканированного отчета

Аналитик данных
Контекст
Аналитик получил многостраничный PDF-отчет, отсканированный с низким качеством, на страницах которого присутствует мелкая рябь и точки.
Проблема
Нужно очистить страницы-изображения от мелкого шума, не повредив при этом страницы с векторными таблицами и текстом.
Как использовать
Загрузите PDF-документ, выберите режим «Авто (медиана + удаление пятен)», установите силу на 2 прохода и запустите обработку.
Пример конфигурации
mode: "auto", strength: 2, rasterizeText: "false", pageRange: ""
Результат
Страницы с изображениями очищены от точек и грязи, а текстовые страницы сохранили исходное качество и возможность поиска.

2. Бинаризация выцветших страниц договора

Юрист
Контекст
Юристу прислали скан старого договора, где текст едва различим из-за серого фона и плохой контрастности сканирования.
Проблема
Сделать текст максимально четким и контрастным для комфортного чтения и печати.
Как использовать
Загрузите скан договора, выберите режим «Бинаризация (Оцу, чёткий ч/б текст)» и укажите диапазон страниц «1-3».
Пример конфигурации
mode: "binarize", rasterizeText: "false", pageRange: "1-3"
Результат
Серый фон страниц стал абсолютно белым, а буквы — насыщенно черными, что значительно повысило читаемость документа.

Проверить на примерах

pdf, image, video

Связанные хабы

FAQ

Сохранится ли возможность поиска текста в очищенном PDF?

Да, текстовые страницы копируются без изменений, сохраняя шрифты и поиск. Если вы принудительно включите растрирование текстовых страниц, поиск станет недоступен.

Какой режим очистки выбрать для обычного скана?

Рекомендуется использовать режим «Авто», который сочетает медианный фильтр 3x3 и удаление изолированных пятен, сохраняя полутона.

Что делает режим бинаризации?

Он использует адаптивный порог Оцу, превращая серый или грязный фон в чисто белый, а текст — в глубокий черный цвет.

Можно ли очистить только определенные страницы документа?

Да, для этого укажите нужные страницы или диапазоны (например, «1-3,5») в поле «Диапазон страниц».

Зачем нужна опция «Растрировать текстовые страницы»?

Она полезна, если скан уже содержит некачественный слой OCR, но само фоновое изображение под ним остается зашумленным и требует очистки.

Документация API

Конечная точка запроса

POST /ru/api/tools/pdf-denoise

Параметры запроса

Имя параметра Тип Обязательно Описание
sourceFile file (Требуется загрузка) Да -
mode select Да Авто: сбалансированные медиана + удаление пятен (сохраняет тон). Медианный: лучше всего для «соли и перца»/импульсного шума. Бинаризация: порог Оцу делает бледный фон белым, а текст — сплошным чёрным.
strength number Нет Число проходов медианного фильтра 3x3 (1–3). Больше = сильнее удаление шума, но больше сглаживание. В режиме бинаризации игнорируется.
rasterizeText select Нет По умолчанию текстовые страницы сохраняются как доступный для поиска векторный контент (без очистки). Включайте только для сканов с OCR, у которых зашумлён сам растр, допуская потерю выделения текста.
pageRange text Нет Укажите страницы для очистки (напр. 1-3,5,7-9). Пусто = все страницы.

Параметры типа файл должны быть загружены сначала через POST /upload/pdf-denoise для получения filePath, затем filePath должен быть передан в соответствующее поле файла.

Формат ответа

{
  "filePath": "/public/processing/randomid.ext",
  "fileName": "output.ext",
  "contentType": "application/octet-stream",
  "size": 1024,
  "metadata": {
    "key": "value"
  },
  "error": "Error message (optional)",
  "message": "Notification message (optional)"
}
Файл: Файл

Документация MCP

Добавьте этот инструмент к конфигурации сервера MCP:

{
  "mcpServers": {
    "elysiatools-pdf-denoise": {
      "name": "pdf-denoise",
      "description": "Удаляет визуальный шум со страниц отсканированных PDF — «соль и перец», случайное зерно и слабую фоновую дымку — с помощью реальных алгоритмов обработки изображений. Текстовые страницы сохраняются как доступный для поиска векторный контент.",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=pdf-denoise",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Вы можете объединять несколько инструментов, например: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, максимум 20 инструментов.

Поддерживает ссылки на файлы URL или кодирование Base64 для параметров файла.

Если вы столкнулись с проблемами, пожалуйста, свяжитесь с нами по адресу [email protected]