Ключевые факты
- Категория
- ИИ и генераторы
- Типы входных данных
- file, text, checkbox
- Тип результата
- file
- Покрытие примерами
- 4
- API доступен
- Yes
Обзор
Этот инструмент преобразует сканированные PDF-документы и файлы с преобладанием графики в структурированный формат Markdown с использованием технологии гибридного OCR. Он автоматически распознает текст на изображениях и сохраняет разметку, обеспечивая корректную работу даже при отсутствии специализированного бэкенда за счет системы автоматического отката к стандартному извлечению.
Когда использовать
- •При необходимости извлечь редактируемый текст из отсканированных бумажных документов или книг.
- •Для конвертации PDF-файлов, состоящих исключительно из изображений, в формат Markdown для баз знаний.
- •Когда нужно подготовить текстовые данные из архивных PDF-документов для последующей обработки в LLM.
Как это работает
- •Загрузите сканированный PDF-файл и при необходимости укажите конкретные номера страниц для обработки.
- •Инструмент применяет гибридное OCR (OpenDataLoader) для распознавания текстовых слоев непосредственно с изображений страниц.
- •Система форматирует извлеченный контент в Markdown, сохраняя переносы строк и добавляя разделители страниц согласно настройкам.
- •В случае недоступности гибридного бэкенда инструмент выполняет стандартное извлечение и фиксирует причину в метаданных.
Сценарии использования
Примеры
1. Оцифровка архивного отчета
Аналитик- Контекст
- Аналитику необходимо извлечь данные из отсканированного годового отчета, который представлен в виде набора изображений внутри PDF.
- Проблема
- Текст в документе не выделяется и не копируется стандартными средствами.
- Как использовать
- Загрузите PDF, выберите опцию «Предпочитать hybrid OCR» и установите флажок «Добавлять разделители страниц».
- Пример конфигурации
-
{"preferHybridOcr": true, "includePageSeparators": true} - Результат
- Получен Markdown-файл с полным текстом отчета, где каждая страница оригинала четко отделена.
2. Конвертация учебных материалов
Преподаватель- Контекст
- Преподаватель подготовил скан главы учебника и хочет создать на его основе текстовый конспект.
- Проблема
- Ручной перебор текста со скана занимает слишком много времени, а структура страниц должна быть сохранена.
- Как использовать
- Загрузите файл, укажите диапазон страниц «10-25» и включите сохранение переносов строк.
- Пример конфигурации
-
{"pages": "10-25", "keepLineBreaks": true, "includePageSeparators": true} - Результат
- Текст из выбранных страниц учебника преобразован в Markdown с сохранением исходного форматирования строк.
Проверить на примерах
markdown, pdf, imageСвязанные хабы
FAQ
Как обработать только определенные страницы PDF?
Введите нужные номера или диапазоны в поле «Страницы», например: 1, 3, 5-10.
Что делать, если гибридный OCR не срабатывает?
Инструмент автоматически переключится на стандартный метод извлечения и уведомит об этом в метаданных.
Можно ли сохранить оригинальные переносы строк?
Да, для этого активируйте опцию «Сохранять переносы строк» в настройках перед запуском.
Поддерживает ли инструмент многостраничные документы?
Да, вы можете загружать многостраничные PDF и разделять их в итоговом Markdown-файле с помощью специальных маркеров.
Нужно ли указывать URL гибридного бэкенда?
Это поле необязательно и используется только при наличии собственного развернутого сервера OpenDataLoader.