Depurador de ordem de leitura de PDF

Compara a ordem bruta do PDF com XY-Cut++ para detectar problemas de leitura em layouts complexos

Envie um PDF e a ferramenta executara o OpenDataLoader com readingOrder=off e readingOrder=xycut para gerar uma comparacao por pagina. Isso e util para relatorios multicoluna, artigos e documentos com layout complexo.

Exemplos de resultados

1 Exemplos

Depurar a ordem de leitura de um PDF

O teste real comparou 2 paginas e nao encontrou diferenca entre XY-Cut++ e a ordem bruta.

Reading order comparison report for 2 extracted pages with 0 changed pages between raw draw order and XY-Cut++.
Ver parâmetros de entrada
{ "pdfFile": "/public/samples/pdf/ebook-navigation-example1.pdf", "useStructTree": false, "includeHeaderFooter": false, "pages": "1-4" }

Click to upload file or drag and drop file here

Maximum file size: 10MB Supported formats: application/pdf

Fatos principais

Categoria
Desenvolvimento e Web
Tipos de entrada
file, checkbox, text
Tipo de saída
html
Cobertura de amostras
4
API disponível
Yes

Visão geral

O Depurador de ordem de leitura de PDF permite comparar a sequência bruta de desenho de um documento com o algoritmo XY-Cut++, identificando falhas na extração de texto em layouts complexos. Ao gerar um relatório visual por página, a ferramenta ajuda a diagnosticar por que textos em colunas ou tabelas podem aparecer embaralhados durante o processamento de dados.

Quando usar

  • Ao processar relatórios financeiros com múltiplas colunas onde o texto extraído parece fora de ordem.
  • Para validar a extração de artigos científicos que utilizam layouts densos e fluxos de leitura complexos.
  • Quando a extração padrão de texto falha em manter a continuidade lógica de parágrafos em folhetos ou brochuras.

Como funciona

  • Carregue o arquivo PDF que apresenta problemas de leitura ou layout para análise.
  • Defina o intervalo de páginas e escolha se deseja incluir cabeçalhos, rodapés ou utilizar a árvore estrutural do documento.
  • O sistema processa o arquivo comparando os modos de extração bruta e o algoritmo de segmentação XY-Cut++.
  • Visualize o relatório HTML gerado para identificar discrepâncias visuais e confirmar a melhor estratégia de extração.

Casos de uso

Otimização de fluxos de ingestão para LLMs, garantindo que o contexto do documento seja extraído na sequência correta.
Auditoria de conversão de documentos técnicos onde a precisão da sequência de parágrafos e tabelas é crítica.
Ajuste de parâmetros de extração para sistemas de RAG que processam PDFs com layouts não convencionais.

Exemplos

1. Depuração de Relatório Financeiro Multicoluna

Analista de Dados
Contexto
O analista percebeu que os dados de um relatório trimestral estavam sendo extraídos com as colunas de 'Receita' e 'Despesa' misturadas na mesma linha.
Problema
A extração bruta lia o PDF horizontalmente através das colunas, quebrando a lógica dos dados.
Como usar
Upload do relatório PDF, seleção das páginas financeiras e ativação do comparador.
Configuração de exemplo
pages: "10-15", includeHeaderFooter: false
Resultado
O relatório HTML mostrou que o XY-Cut++ separou corretamente as colunas, permitindo configurar o extrator final com os parâmetros ideais.

2. Validação de Artigo Científico

Pesquisador Acadêmico
Contexto
Ao converter artigos para texto simples, as citações laterais e notas de rodapé interrompiam o fluxo dos parágrafos principais.
Problema
Identificar se a árvore estrutural do PDF era confiável ou se o XY-Cut++ seria mais eficiente para ignorar ruídos de layout.
Como usar
Upload do artigo e execução de dois testes: um com 'useStructTree' ativo e outro apenas com XY-Cut++.
Configuração de exemplo
useStructTree: true, includeHeaderFooter: true
Resultado
O pesquisador identificou que a árvore estrutural estava mal formatada e que o XY-Cut++ sozinho produzia uma leitura mais limpa.

Testar com amostras

pdf, file

Hubs relacionados

FAQ

O que é o algoritmo XY-Cut++?

É um método de segmentação recursiva que analisa o layout do PDF para preservar a ordem lógica de leitura, especialmente em documentos com múltiplas colunas.

Por que meu texto aparece embaralhado na extração bruta?

PDFs costumam armazenar o texto na ordem em que os elementos foram desenhados na tela, o que raramente coincide com a ordem de leitura humana em layouts complexos.

Posso depurar apenas páginas específicas do documento?

Sim, você pode especificar páginas individuais ou intervalos, como '1, 3, 5-10', no campo de configuração de páginas.

Para que serve a opção 'Usar árvore estrutural'?

Ela tenta aproveitar as metatags de estrutura interna do PDF (Tagged PDF) para determinar a ordem correta dos elementos antes de aplicar algoritmos geométricos.

O que significa o resultado '0 changed pages'?

Isso indica que a ordem de desenho bruta e o algoritmo XY-Cut++ resultaram na mesma sequência de texto, sugerindo um layout simples de coluna única.

Documentação da API

Ponto final da solicitação

POST /pt/api/tools/pdf-reading-order-debugger

Parâmetros da solicitação

Nome do parâmetro Tipo Requerido Descrição
pdfFile file (Upload necessário) Sim -
useStructTree checkbox Não -
includeHeaderFooter checkbox Não -
pages text Não -

Os parâmetros de tipo arquivo precisam ser carregados primeiro via POST /upload/pdf-reading-order-debugger para obter filePath, depois filePath deve ser passado ao campo de arquivo correspondente.

Formato de resposta

{
  "result": "
Processed HTML content
", "error": "Error message (optional)", "message": "Notification message (optional)", "metadata": { "key": "value" } }
HTML: HTML

Documentação de MCP

Adicione este ferramenta à sua configuração de servidor MCP:

{
  "mcpServers": {
    "elysiatools-pdf-reading-order-debugger": {
      "name": "pdf-reading-order-debugger",
      "description": "Compara a ordem bruta do PDF com XY-Cut++ para detectar problemas de leitura em layouts complexos",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=pdf-reading-order-debugger",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Você pode encadear várias ferramentas, ex: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, máx 20 ferramentas.

Suporta links de arquivos URL ou codificação Base64 para parâmetros de arquivo.

Se você encontrar algum problema, por favor, entre em contato conosco em [email protected]