Что такое XY-Cut++?

Это алгоритм сегментации страниц, который использует геометрический анализ для корректного распознавания колонок и блоков текста в сложных макетах.

Зачем сравнивать порядок чтения?

Чтобы убедиться, что при автоматическом извлечении текста абзацы и колонки не перемешиваются, сохраняя логическую связность документа.

Можно ли анализировать только определенные страницы?

Да, вы можете указать конкретные номера страниц или диапазоны, например '1, 3, 5-7', чтобы ускорить процесс отладки.

Влияют ли колонтитулы на результат анализа?

Вы можете включить или исключить верхние и нижние колонтитулы из процесса сравнения с помощью специальной опции в настройках.

Что делать, если оба метода извлечения дают одинаковый результат?

Это означает, что структура документа проста и стандартный порядок отрисовки совпадает с логическим порядком чтения.

Elysia Tools

Навигация

Developer Tools

Отладчик порядка чтения PDF

Сравнивает обычный порядок извлечения PDF и XY-Cut++ для выявления проблем в сложных макетах

Детали

С чем помогает этот инструмент

Загрузите PDF, и инструмент запустит OpenDataLoader с readingOrder=off и readingOrder=xycut, чтобы построить постраничное сравнение. Это особенно полезно для многоколоночных отчетов, статей и брошюр.

Запуск

Запустить этот инструмент

Заполните форму, запустите инструмент и посмотрите результат на этой же странице.

Подготовленные примеры запуска

Нажмите пример, чтобы автоматически заполнить форму. Файлы по-прежнему нужно загрузить.

1 примеров

Проверить порядок чтения PDF

Реальный прогон сравнил 2 страницы и не нашел различий между XY-Cut++ и обычным порядком.

<div>Reading order comparison report for 2 extracted pages with 0 changed pages between raw draw order and XY-Cut++.</div>

Ввод

Заполните нужные поля и запустите инструмент.

4 параметров

ФайлыЗагрузите исходные файлы для этого сценария.1

PDF файлfileОбязательно

Поддерживаемые типы: application/pdf

СодержимоеВставьте или введите основные значения.1

СтраницыtextНеобязательно

ПереключателиВключайте или отключайте дополнительные режимы.2

Использовать структуру теговcheckboxНеобязательноВключено, если отмеченоВключать колонтитулыcheckboxНеобязательноВключено, если отмечено

Результат

Готово к запуску

После запуска здесь появятся файлы, текст, структурированные данные или потоковый вывод.

Примеры

Примеры для этого инструмента

Связано

Отладчик порядка чтения PDF

С чем помогает этот инструмент

Запустить этот инструмент

Подготовленные примеры запуска

Ввод

Результат

Примеры для этого инструмента

Продолжить с похожими инструментами и темами

Подготовленные примеры запуска

Ввод

Результат

Узнайте, когда использовать этот инструмент, что он поддерживает и как его применяют пользователи.

Ключевые факты

Обзор

Когда использовать

Как это работает

Сценарии использования

Примеры

1. Анализ двухколоночной научной статьи

2. Проверка финансового отчета с врезками

FAQ

PDF Примеры

Примеры Markdown Презентаций

ICS Примеры Планировщика по Часовым Поясам

OFD образцы

Анализатор PDF с формулами и графиками

Очиститель шума колонтитулов PDF

Инспектор Tagged PDF

Проводник структуры JSON из PDF

Инструменты отладки извлечения PDF и проверки безопасности

Инструменты PDF-конвертации и документного экспорта

Инструменты для сборки, верстки и защиты PDF

Генераторы печатных PDF-макетов и шаблонов