Ключевые факты
- Категория
- Документы и PDF
- Типы входных данных
- file, text, number
- Тип результата
- file
- Покрытие примерами
- 4
- API доступен
- Yes
Обзор
Инструмент для добавления OCR-слоя в сканированные PDF-документы, который преобразует изображения текста в полноценный поисковый и копируемый формат с помощью движка Tesseract.
Когда использовать
- •Когда у вас есть сканированный документ или изображение в формате PDF, из которого невозможно скопировать текст.
- •Когда необходимо сделать архив бумажных документов доступным для полнотекстового поиска.
- •Когда нужно подготовить PDF-файл для цитирования или обработки данных, извлекая информацию из нередактируемых сканов.
Как это работает
- •Загрузите ваш PDF-файл в систему.
- •Выберите язык документа и настройте параметры DPI для оптимального распознавания.
- •Выберите режим сегментации страницы и движка OCR для повышения точности.
- •Система растрирует страницы, распознает текст и создает новый PDF-файл с невидимым текстовым слоем поверх изображений.
Сценарии использования
Примеры
1. Стандартная обработка документов
Офисный сотрудник- Контекст
- Необходимо сделать архив сканированных отчетов за год доступным для поиска по базе данных.
- Проблема
- Текст в PDF-файлах представлен в виде картинок, поиск по ним невозможен.
- Как использовать
- Загрузите PDF, установите DPI на 300 и выберите нужный язык распознавания.
- Пример конфигурации
-
language: eng, dpi: 300, oem: 1, psm: 3 - Результат
- Получен PDF-файл, в котором можно выделять текст и искать информацию через стандартный поиск в PDF-ридере.
2. Быстрая обработка для экономии места
Архивариус- Контекст
- Требуется быстро обработать большой объем сканов для внутреннего пользования, где критична скорость и размер файла.
- Проблема
- Высокое разрешение сканов создает слишком тяжелые файлы после OCR.
- Как использовать
- Установите DPI на 200 и используйте режим сегментации psm=6 для ускорения процесса.
- Пример конфигурации
-
language: eng, dpi: 200, oem: 1, psm: 6 - Результат
- Файл стал поисковым, при этом размер документа остался минимальным, а время обработки сократилось.
Проверить на примерах
pdf, text, fileСвязанные хабы
FAQ
Что такое OCR-слой?
Это невидимый слой текста, наложенный на изображение страницы, который позволяет выделять, копировать и искать текст в PDF.
Какие языки поддерживает инструмент?
Инструмент поддерживает любые языки, совместимые с Tesseract, включая многоязычные документы (например, eng+rus).
Как выбрать правильный DPI?
Для стандартных документов рекомендуется 300 DPI. Более низкие значения ускоряют процесс, но могут снизить точность распознавания.
Можно ли обрабатывать защищенные паролем PDF?
Инструмент работает с открытыми PDF-файлами. Если файл защищен, предварительно снимите ограничение.
Изменяется ли внешний вид исходного документа?
Нет, визуально документ остается прежним, добавляется только возможность взаимодействия с текстом.