Ключевые факты
- Категория
- Документы и PDF
- Типы входных данных
- file, select, number, text
- Тип результата
- file
- Покрытие примерами
- 4
- API доступен
- Yes
Обзор
Инструмент «Очистка PDF от шума» позволяет быстро удалить визуальные дефекты, такие как эффект «соль и перец», случайное зерно и серую фоновую дымку с отсканированных страниц PDF-документов, сохраняя при этом оригинальный текстовый слой для поиска.
Когда использовать
- •При необходимости очистить отсканированные документы от серого фона, точек и шума для улучшения их читаемости.
- •Для подготовки сканов документов к последующему распознаванию текста (OCR) путем повышения контрастности.
- •Когда нужно убрать визуальный шум с картинок в PDF, но полностью сохранить векторный текст и возможность поиска на текстовых страницах.
Как это работает
- •Вы загружаете файл PDF и выбираете режим очистки: автоматический, медианный фильтр или бинаризацию по методу Оцу.
- •Инструмент анализирует страницы: текстовые и пустые страницы копируются без изменений для сохранения шрифтов, а страницы-изображения растрируются.
- •К растровым страницам применяются выбранные алгоритмы фильтрации для удаления шума или повышения контрастности.
- •Очищенные изображения объединяются с сохраненными текстовыми страницами в новый оптимизированный PDF-документ.
Сценарии использования
Примеры
1. Автоматическое удаление шума со сканированного отчета
Аналитик данных- Контекст
- Аналитик получил многостраничный PDF-отчет, отсканированный с низким качеством, на страницах которого присутствует мелкая рябь и точки.
- Проблема
- Нужно очистить страницы-изображения от мелкого шума, не повредив при этом страницы с векторными таблицами и текстом.
- Как использовать
- Загрузите PDF-документ, выберите режим «Авто (медиана + удаление пятен)», установите силу на 2 прохода и запустите обработку.
- Пример конфигурации
-
mode: "auto", strength: 2, rasterizeText: "false", pageRange: "" - Результат
- Страницы с изображениями очищены от точек и грязи, а текстовые страницы сохранили исходное качество и возможность поиска.
2. Бинаризация выцветших страниц договора
Юрист- Контекст
- Юристу прислали скан старого договора, где текст едва различим из-за серого фона и плохой контрастности сканирования.
- Проблема
- Сделать текст максимально четким и контрастным для комфортного чтения и печати.
- Как использовать
- Загрузите скан договора, выберите режим «Бинаризация (Оцу, чёткий ч/б текст)» и укажите диапазон страниц «1-3».
- Пример конфигурации
-
mode: "binarize", rasterizeText: "false", pageRange: "1-3" - Результат
- Серый фон страниц стал абсолютно белым, а буквы — насыщенно черными, что значительно повысило читаемость документа.
Проверить на примерах
pdf, image, videoСвязанные хабы
FAQ
Сохранится ли возможность поиска текста в очищенном PDF?
Да, текстовые страницы копируются без изменений, сохраняя шрифты и поиск. Если вы принудительно включите растрирование текстовых страниц, поиск станет недоступен.
Какой режим очистки выбрать для обычного скана?
Рекомендуется использовать режим «Авто», который сочетает медианный фильтр 3x3 и удаление изолированных пятен, сохраняя полутона.
Что делает режим бинаризации?
Он использует адаптивный порог Оцу, превращая серый или грязный фон в чисто белый, а текст — в глубокий черный цвет.
Можно ли очистить только определенные страницы документа?
Да, для этого укажите нужные страницы или диапазоны (например, «1-3,5») в поле «Диапазон страниц».
Зачем нужна опция «Растрировать текстовые страницы»?
Она полезна, если скан уже содержит некачественный слой OCR, но само фоновое изображение под ним остается зашумленным и требует очистки.