O que é o algoritmo XY-Cut++?

É um método de segmentação recursiva que analisa o layout do PDF para preservar a ordem lógica de leitura, especialmente em documentos com múltiplas colunas.

Por que meu texto aparece embaralhado na extração bruta?

PDFs costumam armazenar o texto na ordem em que os elementos foram desenhados na tela, o que raramente coincide com a ordem de leitura humana em layouts complexos.

Posso depurar apenas páginas específicas do documento?

Sim, você pode especificar páginas individuais ou intervalos, como '1, 3, 5-10', no campo de configuração de páginas.

Para que serve a opção 'Usar árvore estrutural'?

Ela tenta aproveitar as metatags de estrutura interna do PDF (Tagged PDF) para determinar a ordem correta dos elementos antes de aplicar algoritmos geométricos.

O que significa o resultado '0 changed pages'?

Isso indica que a ordem de desenho bruta e o algoritmo XY-Cut++ resultaram na mesma sequência de texto, sugerindo um layout simples de coluna única.

Elysia Tools

Navegação

Developer Tools

Depurador de ordem de leitura de PDF

Compara a ordem bruta do PDF com XY-Cut++ para detectar problemas de leitura em layouts complexos

Detalhes

O que esta ferramenta ajuda você a fazer

Envie um PDF e a ferramenta executara o OpenDataLoader com readingOrder=off e readingOrder=xycut para gerar uma comparacao por pagina. Isso e util para relatorios multicoluna, artigos e documentos com layout complexo.

Execução

Executar esta ferramenta

Preencha o formulário, execute a ferramenta e veja o resultado no mesmo lugar.

Execuções de exemplo preparadas

Clique em um exemplo para preencher o formulário automaticamente. Arquivos ainda precisam ser enviados.

1 exemplos

Depurar a ordem de leitura de um PDF

O teste real comparou 2 paginas e nao encontrou diferenca entre XY-Cut++ e a ordem bruta.

<div>Reading order comparison report for 2 extracted pages with 0 changed pages between raw draw order and XY-Cut++.</div>

Entradas

Preencha os campos necessários e execute a ferramenta.

4 opções

ArquivosEnvie os arquivos de origem para este fluxo.1

Arquivo PDFfileObrigatório

Tipos aceitos: application/pdf

ConteúdoCole ou digite os valores principais.1

PaginastextOpcional

AlternânciasAtive ou desative comportamentos opcionais.2

Usar arvore estruturalcheckboxOpcionalAtivo quando marcadoIncluir cabecalho e rodapecheckboxOpcionalAtivo quando marcado

Resultado

Pronto para executar

Depois de executar, arquivos, texto, dados estruturados ou saída em streaming aparecerão aqui.

Exemplos

Exemplos compatíveis com esta ferramenta

Relacionado

Depurador de ordem de leitura de PDF

O que esta ferramenta ajuda você a fazer

Executar esta ferramenta

Execuções de exemplo preparadas

Entradas

Resultado

Exemplos compatíveis com esta ferramenta

Continue com ferramentas e temas relacionados

Execuções de exemplo preparadas

Entradas

Resultado

Veja quando usar esta ferramenta, o que ela suporta e como os usuários a aplicam.

Fatos principais

Visão geral

Quando usar

Como funciona

Casos de uso

Exemplos

1. Depuração de Relatório Financeiro Multicoluna

2. Validação de Artigo Científico

Perguntas frequentes

Exemplos PDF

Exemplos de Apresentacoes Markdown

Amostras ICS do Agendador por Fuso Horario

Amostras OFD

Analisador de PDF com formulas e graficos

Removedor de ruido de cabecalho e rodape PDF

Inspetor de PDF marcado

Explorador de estrutura JSON a partir de PDF

Ferramentas de depuracao de extracao PDF e revisao de seguranca

Ferramentas de conversao PDF e exportacao documental

Ferramentas de montagem, layout e protecao de PDF

Geradores de layout e modelos PDF imprimiveis