Отладчик порядка чтения PDF

Сравнивает обычный порядок извлечения PDF и XY-Cut++ для выявления проблем в сложных макетах

Загрузите PDF, и инструмент запустит OpenDataLoader с readingOrder=off и readingOrder=xycut, чтобы построить постраничное сравнение. Это особенно полезно для многоколоночных отчетов, статей и брошюр.

Примеры результатов

1 Примеры

Проверить порядок чтения PDF

Реальный прогон сравнил 2 страницы и не нашел различий между XY-Cut++ и обычным порядком.

Reading order comparison report for 2 extracted pages with 0 changed pages between raw draw order and XY-Cut++.
Показать параметры ввода
{ "pdfFile": "/public/samples/pdf/ebook-navigation-example1.pdf", "useStructTree": false, "includeHeaderFooter": false, "pages": "1-4" }

Click to upload file or drag and drop file here

Maximum file size: 10MB Supported formats: application/pdf

Ключевые факты

Категория
Разработка и Web
Типы входных данных
file, checkbox, text
Тип результата
html
Покрытие примерами
4
API доступен
Yes

Обзор

Отладчик порядка чтения PDF — это специализированный инструмент для анализа структуры документов, который сравнивает стандартную последовательность извлечения текста с алгоритмом XY-Cut++. Он помогает визуализировать различия в логике чтения и выявлять ошибки в сложных макетах, таких как многоколоночные отчеты, научные статьи или брошюры.

Когда использовать

  • При работе с многоколоночными PDF-документами, где текст извлекается в неправильной последовательности.
  • Для проверки корректности распознавания структуры в научных статьях, брошюрах и финансовых отчетах.
  • Перед автоматизированной обработкой больших объемов PDF для выбора оптимального алгоритма извлечения данных.

Как это работает

  • Загрузите PDF-файл и укажите диапазон страниц для анализа в соответствующем поле.
  • Инструмент запускает два процесса извлечения: стандартный (по порядку отрисовки) и с применением алгоритма XY-Cut++.
  • Система сопоставляет полученные результаты и формирует детальный HTML-отчет с постраничным сравнением.
  • Изучите отчет, чтобы увидеть, как алгоритмы обрабатывают колонки, врезки и колонтитулы в вашем документе.

Сценарии использования

Отладка парсеров для извлечения данных из многоколоночных научных публикаций и журналов.
Проверка качества подготовки PDF-документов перед их индексацией в поисковых системах или LLM-приложениях.
Анализ сложных маркетинговых материалов с нестандартным расположением текстовых блоков и графики.

Примеры

1. Анализ двухколоночной научной статьи

Исследователь данных
Контекст
Специалисту нужно извлечь текст из архива научных статей, но стандартные инструменты часто смешивают текст левой и правой колонок.
Проблема
Текст извлекается построчно через обе колонки, что делает невозможным качественный анализ содержания.
Как использовать
Загрузить PDF статьи, указать страницы с основным текстом и запустить процесс отладки.
Результат
HTML-отчет наглядно показал, что алгоритм XY-Cut++ корректно разделяет колонки, в отличие от стандартного метода.

2. Проверка финансового отчета с врезками

Финансовый аналитик
Контекст
Годовой отчет компании содержит таблицы, графики и важные текстовые примечания, расположенные сбоку от основного текста.
Проблема
Необходимо понять, не теряются ли примечания и не вставляются ли они в середину предложений при парсинге.
Как использовать
Загрузить отчет, активировать опцию 'Использовать структуру тегов' и сравнить результаты извлечения.
Результат
Выявлено, что стандартный порядок игнорирует логику врезок, тогда как XY-Cut++ правильно определяет их место в потоке данных.

Проверить на примерах

pdf, file

Связанные хабы

FAQ

Что такое XY-Cut++?

Это алгоритм сегментации страниц, который использует геометрический анализ для корректного распознавания колонок и блоков текста в сложных макетах.

Зачем сравнивать порядок чтения?

Чтобы убедиться, что при автоматическом извлечении текста абзацы и колонки не перемешиваются, сохраняя логическую связность документа.

Можно ли анализировать только определенные страницы?

Да, вы можете указать конкретные номера страниц или диапазоны, например '1, 3, 5-7', чтобы ускорить процесс отладки.

Влияют ли колонтитулы на результат анализа?

Вы можете включить или исключить верхние и нижние колонтитулы из процесса сравнения с помощью специальной опции в настройках.

Что делать, если оба метода извлечения дают одинаковый результат?

Это означает, что структура документа проста и стандартный порядок отрисовки совпадает с логическим порядком чтения.

Документация API

Конечная точка запроса

POST /ru/api/tools/pdf-reading-order-debugger

Параметры запроса

Имя параметра Тип Обязательно Описание
pdfFile file (Требуется загрузка) Да -
useStructTree checkbox Нет -
includeHeaderFooter checkbox Нет -
pages text Нет -

Параметры типа файл должны быть загружены сначала через POST /upload/pdf-reading-order-debugger для получения filePath, затем filePath должен быть передан в соответствующее поле файла.

Формат ответа

{
  "result": "
Processed HTML content
", "error": "Error message (optional)", "message": "Notification message (optional)", "metadata": { "key": "value" } }
HTML: HTML

Документация MCP

Добавьте этот инструмент к конфигурации сервера MCP:

{
  "mcpServers": {
    "elysiatools-pdf-reading-order-debugger": {
      "name": "pdf-reading-order-debugger",
      "description": "Сравнивает обычный порядок извлечения PDF и XY-Cut++ для выявления проблем в сложных макетах",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=pdf-reading-order-debugger",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Вы можете объединять несколько инструментов, например: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, максимум 20 инструментов.

Поддерживает ссылки на файлы URL или кодирование Base64 для параметров файла.

Если вы столкнулись с проблемами, пожалуйста, свяжитесь с нами по адресу [email protected]