Конвертер PDF в структурированный Markdown

Преобразует PDF в структурированный Markdown через OpenDataLoader с поддержкой HTML, изображений и разделителей страниц

После загрузки PDF инструмент запускает OpenDataLoader и создает структурированный Markdown. Можно выбрать обычный Markdown, Markdown с HTML или Markdown с изображениями, а также настроить переносы строк, разделители страниц, структуру tagged PDF и маскирование данных.

Примеры результатов

1 Примеры

Преобразовать брендбук PDF в Markdown

Реальный sample создал Markdown-файл размером 596 байт для повторного использования.

pdf-to-structured-markdown-converter-example1.md Показать файл
Показать параметры ввода
{ "pdfFile": "/public/samples/pdf/brand-guidelines-pdf-example1.pdf", "markdownOutput": "markdown", "keepLineBreaks": true, "useStructTree": true, "includePageSeparators": true, "sanitizeSensitiveData": false, "pages": "" }

Click to upload file or drag and drop file here

Maximum file size: 10MB Supported formats: application/pdf

Ключевые факты

Категория
Разработка и Web
Типы входных данных
file, select, checkbox, text
Тип результата
file
Покрытие примерами
4
API доступен
Yes

Обзор

Конвертер PDF в структурированный Markdown — это мощный инструмент на базе OpenDataLoader, который позволяет быстро преобразовывать PDF-документы в чистый и готовый к использованию Markdown-код. Вы можете извлекать текст с сохранением структуры тегов, добавлять разделители страниц, интегрировать HTML-элементы или ссылки на изображения, а также маскировать конфиденциальные данные, что делает его идеальным решением для миграции контента и подготовки данных для ИИ.

Когда использовать

  • Когда необходимо перенести документацию из PDF-файлов в современные системы управления знаниями, поддерживающие Markdown.
  • Для подготовки текстовых корпусов из PDF-отчетов или книг для последующего использования в системах искусственного интеллекта (RAG).
  • Если требуется извлечь структурированный текст из руководств пользователя с сохранением оригинального форматирования и разбивки на страницы.

Как это работает

  • Загрузите исходный PDF-файл в инструмент.
  • Выберите желаемый формат вывода (обычный Markdown, с HTML или с изображениями) и укажите нужные страницы для обработки.
  • Настройте дополнительные параметры: сохранение переносов строк, использование структуры тегов (Tagged PDF) или добавление разделителей страниц.
  • Нажмите кнопку конвертации и скачайте готовый Markdown-файл с извлеченным контентом.

Сценарии использования

Миграция корпоративных регламентов и инструкций из PDF-архивов во внутреннюю базу знаний в формате Markdown.
Извлечение чистого текста из научных статей и аналитических отчетов для загрузки в векторные базы данных и LLM-приложения.
Конвертация брендбуков и маркетинговых материалов в веб-формат с сохранением ссылок на встроенные изображения и HTML-разметки.

Примеры

1. Оцифровка корпоративного брендбука

Контент-менеджер
Контекст
У компании есть брендбук в формате PDF, который нужно перенести в корпоративную Wiki.
Проблема
Ручное копирование текста приводит к потере структуры, заголовков и логического разделения страниц.
Как использовать
Загрузить PDF-файл брендбука, выбрать «Обычный Markdown», включить «Использовать структуру тегов» и «Добавлять разделители страниц».
Пример конфигурации
Вывод: markdown, Использовать структуру тегов: true, Разделители страниц: true
Результат
Получен структурированный Markdown-файл, где каждый раздел брендбука корректно размечен заголовками, а страницы визуально отделены друг от друга.

2. Подготовка отчета для RAG-системы

AI-разработчик
Контекст
Для базы знаний чат-бота требуется загрузить финансовый отчет за квартал, содержащий конфиденциальные данные клиентов.
Проблема
Необходимо извлечь текст только из страниц 10-25, сохранив абзацы и скрыв персональные данные.
Как использовать
Загрузить PDF-отчет, указать страницы «10-25», включить «Санитизировать чувствительные данные» и отключить «Сохранять переносы строк» для сплошного текста.
Пример конфигурации
Страницы: 10-25, Санитизация: true, Сохранять переносы строк: false
Результат
Сгенерирован чистый Markdown-файл только для указанных страниц, где персональные данные замаскированы, а текст готов к векторизации.

Проверить на примерах

html, markdown, pdf

Связанные хабы

FAQ

Можно ли конвертировать только определенные страницы PDF?

Да, в поле «Страницы» можно указать конкретные номера или диапазоны, например «1,3,5-7», чтобы обработать только нужную часть документа.

Что делает опция «Использовать структуру тегов»?

Эта функция использует внутреннюю структуру Tagged PDF для более точного определения заголовков, абзацев и списков, улучшая качество итогового Markdown.

Как работает санитизация чувствительных данных?

При включении этой опции инструмент автоматически находит и маскирует потенциально конфиденциальную информацию в итоговом тексте.

Сохраняются ли изображения при конвертации?

Если выбрать режим «Markdown с изображениями», инструмент извлечет графику и вставит соответствующие ссылки на изображения в Markdown-код.

Как инструмент обрабатывает разрывы страниц?

При включении опции «Добавлять разделители страниц» в местах перехода на новую страницу PDF в Markdown будет добавлен специальный визуальный разделитель.

Документация API

Конечная точка запроса

POST /ru/api/tools/pdf-to-structured-markdown-converter

Параметры запроса

Имя параметра Тип Обязательно Описание
pdfFile file (Требуется загрузка) Да -
markdownOutput select Нет -
keepLineBreaks checkbox Нет -
useStructTree checkbox Нет -
includePageSeparators checkbox Нет -
sanitizeSensitiveData checkbox Нет -
pages text Нет -

Параметры типа файл должны быть загружены сначала через POST /upload/pdf-to-structured-markdown-converter для получения filePath, затем filePath должен быть передан в соответствующее поле файла.

Формат ответа

{
  "filePath": "/public/processing/randomid.ext",
  "fileName": "output.ext",
  "contentType": "application/octet-stream",
  "size": 1024,
  "metadata": {
    "key": "value"
  },
  "error": "Error message (optional)",
  "message": "Notification message (optional)"
}
Файл: Файл

Документация MCP

Добавьте этот инструмент к конфигурации сервера MCP:

{
  "mcpServers": {
    "elysiatools-pdf-to-structured-markdown-converter": {
      "name": "pdf-to-structured-markdown-converter",
      "description": "Преобразует PDF в структурированный Markdown через OpenDataLoader с поддержкой HTML, изображений и разделителей страниц",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=pdf-to-structured-markdown-converter",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Вы можете объединять несколько инструментов, например: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, максимум 20 инструментов.

Поддерживает ссылки на файлы URL или кодирование Base64 для параметров файла.

Если вы столкнулись с проблемами, пожалуйста, свяжитесь с нами по адресу [email protected]