Инспектор Tagged PDF

Сравнивает извлечение с StructTree и без него, чтобы понять, содержит ли PDF полезную tagged-структуру

После загрузки PDF инструмент запускает OpenDataLoader с useStructTree=true и useStructTree=false, а затем сравнивает заголовки, списки, таблицы и абзацы. Это помогает понять, стоит ли опираться на tagged-структуру в конвейерах доступности, конвертации и RAG.

Примеры результатов

1 Примеры

Проверить, есть ли у PDF полезная tagged-структура

Реальный sample дал 20 против 22 семантических узлов и различия в текстах заголовков.

Real sample report comparing StructTree and plain extraction; this sample produced 20 vs 22 semantic nodes and showed heading-text differences.
Показать параметры ввода
{ "pdfFile": "/public/samples/pdf/brand-guidelines-pdf-example1.pdf", "pages": "", "includeHeaderFooter": false }

Click to upload file or drag and drop file here

Maximum file size: 10MB Supported formats: application/pdf

Ключевые факты

Категория
Разработка и Web
Типы входных данных
file, text, checkbox
Тип результата
html
Покрытие примерами
4
API доступен
Yes

Обзор

Инспектор Tagged PDF — это специализированный инструмент для анализа семантической структуры PDF-документов. Он автоматически сравнивает результаты извлечения данных с использованием StructTree и без него, наглядно показывая разницу в распознавании заголовков, списков, таблиц и абзацев. Это помогает разработчикам и инженерам данных быстро определить, содержит ли файл полезную логическую разметку для использования в системах RAG, задачах конвертации контента или обеспечения цифровой доступности.

Когда использовать

  • Когда нужно оценить качество тегирования PDF перед массовой загрузкой в векторную базу данных (RAG).
  • При аудите документов на наличие логической структуры для соответствия стандартам цифровой доступности.
  • Для выбора оптимального метода парсинга сложных PDF-файлов с таблицами и многоуровневыми списками.

Как это работает

  • Загрузите PDF-файл и, при необходимости, укажите конкретные страницы для анализа.
  • Инструмент дважды обрабатывает документ через OpenDataLoader: с включенной и отключенной поддержкой StructTree.
  • Система сопоставляет извлеченные семантические узлы (заголовки, таблицы, абзацы) и формирует наглядный HTML-отчет.
  • Вы анализируете отчет, чтобы увидеть разницу в количестве узлов и качестве извлеченного текста.

Сценарии использования

Оптимизация извлечения данных для RAG-систем путем выбора лучшего метода парсинга PDF.
Проверка корпоративных брендбуков и отчетов на наличие правильной логической структуры.
Отладка процессов миграции контента из PDF в HTML или Markdown.

Примеры

1. Анализ брендбука для RAG-системы

Инженер данных
Контекст
Команда создает базу знаний на основе корпоративных PDF-документов со сложной версткой.
Проблема
Необходимо понять, можно ли использовать встроенные теги PDF для точного извлечения заголовков и списков.
Как использовать
Загрузить файл brand-guidelines.pdf и запустить инспектор без дополнительных настроек.
Пример конфигурации
Страницы: пусто, Включать колонтитулы: false
Результат
HTML-отчет показывает 20 семантических узлов с StructTree против 22 без него, выявляя разницу в текстах заголовков. Инженер принимает решение использовать StructTree для более точной иерархии.

2. Проверка доступности финансового отчета

Специалист по цифровой доступности
Контекст
Компания обязана публиковать финансовые отчеты в формате, доступном для скринридеров.
Проблема
Нужно быстро проверить, размечены ли таблицы и абзацы в 100-страничном отчете.
Как использовать
Загрузить отчет, указать страницы с таблицами (например, 15-20) и запустить проверку.
Пример конфигурации
Страницы: 15-20, Включать колонтитулы: false
Результат
Отчет показывает, что при включенном StructTree таблицы корректно распознаются как единые блоки, а без него — разбиваются на отдельные строки. Документ признан доступным.

Проверить на примерах

pdf, file

Связанные хабы

FAQ

Что такое StructTree в PDF?

StructTree (дерево структуры) — это внутренний механизм PDF, который хранит логическую разметку документа, связывая визуальные элементы с семантическими тегами (заголовки, абзацы, таблицы).

Зачем сравнивать извлечение с тегами и без них?

Многие PDF-файлы имеют некорректную или пустую теговую структуру. Сравнение показывает, улучшает ли использование StructTree качество парсинга или лучше полагаться на эвристические алгоритмы.

Можно ли проверить только часть документа?

Да, вы можете указать конкретные страницы (например, 1,3,5-7) в поле «Страницы», чтобы ускорить анализ объемных файлов.

Влияют ли колонтитулы на результаты?

По умолчанию колонтитулы игнорируются, но вы можете включить их обработку с помощью опции «Включать колонтитулы», если они содержат важную для анализа информацию.

В каком формате выдается результат?

Инструмент генерирует интерактивный HTML-отчет, в котором бок о бок сравниваются семантические узлы и тексты, извлеченные обоими методами.

Документация API

Конечная точка запроса

POST /ru/api/tools/tagged-pdf-inspector

Параметры запроса

Имя параметра Тип Обязательно Описание
pdfFile file (Требуется загрузка) Да -
pages text Нет -
includeHeaderFooter checkbox Нет -

Параметры типа файл должны быть загружены сначала через POST /upload/tagged-pdf-inspector для получения filePath, затем filePath должен быть передан в соответствующее поле файла.

Формат ответа

{
  "result": "
Processed HTML content
", "error": "Error message (optional)", "message": "Notification message (optional)", "metadata": { "key": "value" } }
HTML: HTML

Документация MCP

Добавьте этот инструмент к конфигурации сервера MCP:

{
  "mcpServers": {
    "elysiatools-tagged-pdf-inspector": {
      "name": "tagged-pdf-inspector",
      "description": "Сравнивает извлечение с StructTree и без него, чтобы понять, содержит ли PDF полезную tagged-структуру",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=tagged-pdf-inspector",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Вы можете объединять несколько инструментов, например: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, максимум 20 инструментов.

Поддерживает ссылки на файлы URL или кодирование Base64 для параметров файла.

Если вы столкнулись с проблемами, пожалуйста, свяжитесь с нами по адресу [email protected]