OCR сканированного PDF в Markdown

Преобразует сканированные или графические PDF в Markdown, предпочитая hybrid OCR и корректно деградируя при его недоступности

После загрузки сканированного PDF инструмент сначала попытается использовать OpenDataLoader hybrid OCR и экспортировать Markdown; если hybrid backend недоступен, он автоматически перейдет к стандартному извлечению и явно укажет причину в metadata.

Примеры результатов

1 Примеры

Преобразовать OCR-PDF в Markdown

Реальный sample выдает пригодный к повторному использованию Markdown и использует локальный путь для стабильного воспроизведения.

scanned-pdf-ocr-to-markdown-example1.md Показать файл
Показать параметры ввода
{ "pdfFile": "/public/samples/pdf/pdf-ocr-text-layer-example1.pdf", "pages": "", "keepLineBreaks": true, "includePageSeparators": true, "hybridBackendUrl": "", "preferHybridOcr": false }

Click to upload file or drag and drop file here

Maximum file size: 10MB Supported formats: application/pdf

Ключевые факты

Категория
ИИ и генераторы
Типы входных данных
file, text, checkbox
Тип результата
file
Покрытие примерами
4
API доступен
Yes

Обзор

Этот инструмент преобразует сканированные PDF-документы и файлы с преобладанием графики в структурированный формат Markdown с использованием технологии гибридного OCR. Он автоматически распознает текст на изображениях и сохраняет разметку, обеспечивая корректную работу даже при отсутствии специализированного бэкенда за счет системы автоматического отката к стандартному извлечению.

Когда использовать

  • При необходимости извлечь редактируемый текст из отсканированных бумажных документов или книг.
  • Для конвертации PDF-файлов, состоящих исключительно из изображений, в формат Markdown для баз знаний.
  • Когда нужно подготовить текстовые данные из архивных PDF-документов для последующей обработки в LLM.

Как это работает

  • Загрузите сканированный PDF-файл и при необходимости укажите конкретные номера страниц для обработки.
  • Инструмент применяет гибридное OCR (OpenDataLoader) для распознавания текстовых слоев непосредственно с изображений страниц.
  • Система форматирует извлеченный контент в Markdown, сохраняя переносы строк и добавляя разделители страниц согласно настройкам.
  • В случае недоступности гибридного бэкенда инструмент выполняет стандартное извлечение и фиксирует причину в метаданных.

Сценарии использования

Оцифровка печатных отчетов и технических руководств для импорта в Notion или Obsidian.
Преобразование сканированных юридических договоров в текстовый формат для быстрого поиска и анализа.
Подготовка контента из старых PDF-архивов для обучения нейросетей и создания поисковых индексов.

Примеры

1. Оцифровка архивного отчета

Аналитик
Контекст
Аналитику необходимо извлечь данные из отсканированного годового отчета, который представлен в виде набора изображений внутри PDF.
Проблема
Текст в документе не выделяется и не копируется стандартными средствами.
Как использовать
Загрузите PDF, выберите опцию «Предпочитать hybrid OCR» и установите флажок «Добавлять разделители страниц».
Пример конфигурации
{"preferHybridOcr": true, "includePageSeparators": true}
Результат
Получен Markdown-файл с полным текстом отчета, где каждая страница оригинала четко отделена.

2. Конвертация учебных материалов

Преподаватель
Контекст
Преподаватель подготовил скан главы учебника и хочет создать на его основе текстовый конспект.
Проблема
Ручной перебор текста со скана занимает слишком много времени, а структура страниц должна быть сохранена.
Как использовать
Загрузите файл, укажите диапазон страниц «10-25» и включите сохранение переносов строк.
Пример конфигурации
{"pages": "10-25", "keepLineBreaks": true, "includePageSeparators": true}
Результат
Текст из выбранных страниц учебника преобразован в Markdown с сохранением исходного форматирования строк.

Проверить на примерах

markdown, pdf, image

Связанные хабы

FAQ

Как обработать только определенные страницы PDF?

Введите нужные номера или диапазоны в поле «Страницы», например: 1, 3, 5-10.

Что делать, если гибридный OCR не срабатывает?

Инструмент автоматически переключится на стандартный метод извлечения и уведомит об этом в метаданных.

Можно ли сохранить оригинальные переносы строк?

Да, для этого активируйте опцию «Сохранять переносы строк» в настройках перед запуском.

Поддерживает ли инструмент многостраничные документы?

Да, вы можете загружать многостраничные PDF и разделять их в итоговом Markdown-файле с помощью специальных маркеров.

Нужно ли указывать URL гибридного бэкенда?

Это поле необязательно и используется только при наличии собственного развернутого сервера OpenDataLoader.

Документация API

Конечная точка запроса

POST /ru/api/tools/scanned-pdf-ocr-to-markdown

Параметры запроса

Имя параметра Тип Обязательно Описание
pdfFile file (Требуется загрузка) Да -
pages text Нет -
keepLineBreaks checkbox Нет -
includePageSeparators checkbox Нет -
hybridBackendUrl text Нет -
preferHybridOcr checkbox Нет -

Параметры типа файл должны быть загружены сначала через POST /upload/scanned-pdf-ocr-to-markdown для получения filePath, затем filePath должен быть передан в соответствующее поле файла.

Формат ответа

{
  "filePath": "/public/processing/randomid.ext",
  "fileName": "output.ext",
  "contentType": "application/octet-stream",
  "size": 1024,
  "metadata": {
    "key": "value"
  },
  "error": "Error message (optional)",
  "message": "Notification message (optional)"
}
Файл: Файл

Документация MCP

Добавьте этот инструмент к конфигурации сервера MCP:

{
  "mcpServers": {
    "elysiatools-scanned-pdf-ocr-to-markdown": {
      "name": "scanned-pdf-ocr-to-markdown",
      "description": "Преобразует сканированные или графические PDF в Markdown, предпочитая hybrid OCR и корректно деградируя при его недоступности",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=scanned-pdf-ocr-to-markdown",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Вы можете объединять несколько инструментов, например: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, максимум 20 инструментов.

Поддерживает ссылки на файлы URL или кодирование Base64 для параметров файла.

Если вы столкнулись с проблемами, пожалуйста, свяжитесь с нами по адресу [email protected]