Fatos principais
- Categoria
- Desenvolvimento e Web
- Tipos de entrada
- file, checkbox, text
- Tipo de saída
- html
- Cobertura de amostras
- 4
- API disponível
- Yes
Visão geral
O Depurador de ordem de leitura de PDF permite comparar a sequência bruta de desenho de um documento com o algoritmo XY-Cut++, identificando falhas na extração de texto em layouts complexos. Ao gerar um relatório visual por página, a ferramenta ajuda a diagnosticar por que textos em colunas ou tabelas podem aparecer embaralhados durante o processamento de dados.
Quando usar
- •Ao processar relatórios financeiros com múltiplas colunas onde o texto extraído parece fora de ordem.
- •Para validar a extração de artigos científicos que utilizam layouts densos e fluxos de leitura complexos.
- •Quando a extração padrão de texto falha em manter a continuidade lógica de parágrafos em folhetos ou brochuras.
Como funciona
- •Carregue o arquivo PDF que apresenta problemas de leitura ou layout para análise.
- •Defina o intervalo de páginas e escolha se deseja incluir cabeçalhos, rodapés ou utilizar a árvore estrutural do documento.
- •O sistema processa o arquivo comparando os modos de extração bruta e o algoritmo de segmentação XY-Cut++.
- •Visualize o relatório HTML gerado para identificar discrepâncias visuais e confirmar a melhor estratégia de extração.
Casos de uso
Exemplos
1. Depuração de Relatório Financeiro Multicoluna
Analista de Dados- Contexto
- O analista percebeu que os dados de um relatório trimestral estavam sendo extraídos com as colunas de 'Receita' e 'Despesa' misturadas na mesma linha.
- Problema
- A extração bruta lia o PDF horizontalmente através das colunas, quebrando a lógica dos dados.
- Como usar
- Upload do relatório PDF, seleção das páginas financeiras e ativação do comparador.
- Configuração de exemplo
-
pages: "10-15", includeHeaderFooter: false - Resultado
- O relatório HTML mostrou que o XY-Cut++ separou corretamente as colunas, permitindo configurar o extrator final com os parâmetros ideais.
2. Validação de Artigo Científico
Pesquisador Acadêmico- Contexto
- Ao converter artigos para texto simples, as citações laterais e notas de rodapé interrompiam o fluxo dos parágrafos principais.
- Problema
- Identificar se a árvore estrutural do PDF era confiável ou se o XY-Cut++ seria mais eficiente para ignorar ruídos de layout.
- Como usar
- Upload do artigo e execução de dois testes: um com 'useStructTree' ativo e outro apenas com XY-Cut++.
- Configuração de exemplo
-
useStructTree: true, includeHeaderFooter: true - Resultado
- O pesquisador identificou que a árvore estrutural estava mal formatada e que o XY-Cut++ sozinho produzia uma leitura mais limpa.
Testar com amostras
pdf, fileHubs relacionados
FAQ
O que é o algoritmo XY-Cut++?
É um método de segmentação recursiva que analisa o layout do PDF para preservar a ordem lógica de leitura, especialmente em documentos com múltiplas colunas.
Por que meu texto aparece embaralhado na extração bruta?
PDFs costumam armazenar o texto na ordem em que os elementos foram desenhados na tela, o que raramente coincide com a ordem de leitura humana em layouts complexos.
Posso depurar apenas páginas específicas do documento?
Sim, você pode especificar páginas individuais ou intervalos, como '1, 3, 5-10', no campo de configuração de páginas.
Para que serve a opção 'Usar árvore estrutural'?
Ela tenta aproveitar as metatags de estrutura interna do PDF (Tagged PDF) para determinar a ordem correta dos elementos antes de aplicar algoritmos geométricos.
O que significa o resultado '0 changed pages'?
Isso indica que a ordem de desenho bruta e o algoritmo XY-Cut++ resultaram na mesma sequência de texto, sugerindo um layout simples de coluna única.