Проводник структуры JSON из PDF

Извлекает JSON-структуру OpenDataLoader из PDF и показывает заголовки, абзацы, таблицы, списки и bounding box

После загрузки PDF инструмент создает JSON через OpenDataLoader и отображает заголовки, абзацы, списки, таблицы, страницы и bounding box в виде обзорного отчета. Это полезно для отладки качества парсинга и семантической структуры.

Примеры результатов

1 Примеры

Исследовать семантическую структуру PDF

Реальный sample показывает 20 семантических узлов без чтения сырого JSON.

Explorer report showing 20 semantic nodes from brand-guidelines-pdf-example1.pdf with page metadata, node counts, and JSON preview.
Показать параметры ввода
{ "pdfFile": "/public/samples/pdf/brand-guidelines-pdf-example1.pdf", "useStructTree": true, "sanitizeSensitiveData": false, "pages": "", "nodeFilter": "all", "searchTerm": "" }

Click to upload file or drag and drop file here

Maximum file size: 10MB Supported formats: application/pdf

Ключевые факты

Категория
Разработка и Web
Типы входных данных
file, checkbox, text, select
Тип результата
html
Покрытие примерами
4
API доступен
Yes

Обзор

Этот инструмент извлекает семантическую структуру из PDF-файлов с помощью OpenDataLoader и преобразует ее в удобный HTML-отчет. Он позволяет визуально исследовать заголовки, абзацы, таблицы, списки и их координаты (bounding box), что делает его идеальным решением для отладки качества парсинга и анализа структуры документа без необходимости вручную читать сырой JSON.

Когда использовать

  • Когда необходимо проверить корректность распознавания таблиц и списков в PDF-документе.
  • Для отладки иерархии заголовков и семантической структуры перед дальнейшей обработкой данных.
  • При поиске конкретных узлов или проверке координат (bounding box) элементов на определенных страницах.

Как это работает

  • Загрузите исходный PDF-файл в инструмент.
  • При необходимости укажите конкретные страницы, настройте фильтр узлов (например, только таблицы) или введите поисковый запрос.
  • Инструмент обработает файл и сгенерирует наглядный HTML-отчет, отображающий извлеченную JSON-структуру и метаданные каждого элемента.

Сценарии использования

Отладка алгоритмов парсинга PDF для разработчиков систем документооборота.
Визуальная проверка извлеченных финансовых таблиц из годовых отчетов перед их экспортом в базу данных.
Анализ иерархии заголовков в объемных технических руководствах для создания оглавлений.

Примеры

1. Анализ структуры брендбука

Разработчик
Контекст
Разработчик настраивает автоматический парсинг корпоративных брендбуков в формате PDF.
Проблема
Необходимо убедиться, что парсер правильно определяет заголовки и абзацы, не смешивая их.
Как использовать
Загрузить файл `brand-guidelines.pdf`, оставить фильтр узлов на «Все узлы» и включить «Использовать структуру тегов».
Пример конфигурации
{
  "useStructTree": true,
  "nodeFilter": "all"
}
Результат
Инструмент генерирует HTML-отчет, показывающий семантические узлы с их координатами, подтверждая корректность иерархии.

2. Извлечение таблиц из финансового отчета

Дата-инженер
Контекст
Инженер извлекает данные о доходах из 100-страничного PDF-отчета.
Проблема
Нужно быстро проверить, как парсер распознал таблицы на страницах 10-15, игнорируя обычный текст.
Как использовать
Загрузить PDF, указать страницы `10-15` и выбрать фильтр узлов «Только таблицы».
Пример конфигурации
{
  "pages": "10-15",
  "nodeFilter": "table"
}
Результат
В отчете отображаются только табличные узлы с указанных страниц, что позволяет быстро оценить качество извлечения строк и столбцов.

Проверить на примерах

json, pdf, file

Связанные хабы

FAQ

Что такое OpenDataLoader?

Это стандарт извлечения данных, который преобразует неструктурированные документы (например, PDF) в машиночитаемый JSON с сохранением семантики.

Можно ли извлечь только таблицы?

Да, используйте опцию «Фильтр узлов» и выберите «Только таблицы», чтобы скрыть остальные элементы.

Как обработать только определенные страницы?

Введите нужные номера в поле «Страницы» (например, 1,3,5-7), и инструмент проанализирует только их.

Что делает опция санитизации данных?

Она скрывает или маскирует потенциально чувствительную информацию из извлеченного текста перед отображением отчета.

В каком формате выдается результат?

Результат предоставляется в виде интерактивного HTML-отчета, который визуализирует JSON-структуру документа.

Документация API

Конечная точка запроса

POST /ru/api/tools/pdf-to-json-structure-explorer

Параметры запроса

Имя параметра Тип Обязательно Описание
pdfFile file (Требуется загрузка) Да -
useStructTree checkbox Нет -
sanitizeSensitiveData checkbox Нет -
pages text Нет -
nodeFilter select Нет -
searchTerm text Нет -

Параметры типа файл должны быть загружены сначала через POST /upload/pdf-to-json-structure-explorer для получения filePath, затем filePath должен быть передан в соответствующее поле файла.

Формат ответа

{
  "result": "
Processed HTML content
", "error": "Error message (optional)", "message": "Notification message (optional)", "metadata": { "key": "value" } }
HTML: HTML

Документация MCP

Добавьте этот инструмент к конфигурации сервера MCP:

{
  "mcpServers": {
    "elysiatools-pdf-to-json-structure-explorer": {
      "name": "pdf-to-json-structure-explorer",
      "description": "Извлекает JSON-структуру OpenDataLoader из PDF и показывает заголовки, абзацы, таблицы, списки и bounding box",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=pdf-to-json-structure-explorer",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Вы можете объединять несколько инструментов, например: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, максимум 20 инструментов.

Поддерживает ссылки на файлы URL или кодирование Base64 для параметров файла.

Если вы столкнулись с проблемами, пожалуйста, свяжитесь с нами по адресу [email protected]