O que é um PDF marcado (Tagged PDF)?

É um PDF que contém uma estrutura de tags oculta (StructTree) que define a ordem de leitura e a semântica dos elementos, como títulos, parágrafos e tabelas.

Por que comparar a extração com e sem StructTree?

Porque muitos PDFs possuem marcações incorretas, corrompidas ou ausentes. A comparação ajuda a decidir se é melhor confiar na estrutura nativa do arquivo ou usar heurísticas de extração visual.

Posso analisar apenas páginas específicas?

Sim, você pode usar o campo 'Páginas' para definir intervalos específicos (por exemplo, 1,3,5-7) e focar apenas nas seções relevantes do documento.

O que a ferramenta identifica na comparação?

Ela compara a quantidade e a precisão de nós semânticos, mostrando diferenças na detecção de blocos de texto, cabeçalhos, listas e estruturas tabulares.

Os cabeçalhos e rodapés afetam a análise?

Podem afetar. Você pode marcar a opção 'Incluir cabeçalho e rodapé' para ver como esses elementos repetitivos são tratados pela árvore de estrutura do PDF.

Elysia Tools

Navegação

Developer Tools

Inspetor de PDF marcado

Compara a extracao com e sem StructTree para ver se o PDF possui estrutura marcada util

Detalhes

O que esta ferramenta ajuda você a fazer

Depois de enviar um PDF, a ferramenta executa o OpenDataLoader com useStructTree=true e useStructTree=false e compara titulos, listas, tabelas e blocos de paragrafo. Isso ajuda a decidir se a estrutura marcada do PDF vale a pena em fluxos de acessibilidade, migracao e RAG.

Execução

Executar esta ferramenta

Preencha o formulário, execute a ferramenta e veja o resultado no mesmo lugar.

Execuções de exemplo preparadas

Clique em um exemplo para preencher o formulário automaticamente. Arquivos ainda precisam ser enviados.

1 exemplos

Inspecionar se um PDF tem estrutura tagged util

O sample real produziu 20 vs 22 nos semanticos e diferencas em alguns titulos.

<div>Real sample report comparing StructTree and plain extraction; this sample produced 20 vs 22 semantic nodes and showed heading-text differences.</div>

Entradas

Preencha os campos necessários e execute a ferramenta.

3 opções

ArquivosEnvie os arquivos de origem para este fluxo.1

Arquivo PDFfileObrigatório

Tipos aceitos: application/pdf

ConteúdoCole ou digite os valores principais.1

PaginastextOpcional

AlternânciasAtive ou desative comportamentos opcionais.1

Incluir cabecalho e rodapecheckboxOpcionalAtivo quando marcado

Resultado

Pronto para executar

Depois de executar, arquivos, texto, dados estruturados ou saída em streaming aparecerão aqui.

Exemplos

Exemplos compatíveis com esta ferramenta

Relacionado

Inspetor de PDF marcado

O que esta ferramenta ajuda você a fazer

Executar esta ferramenta

Execuções de exemplo preparadas

Entradas

Resultado

Exemplos compatíveis com esta ferramenta

Continue com ferramentas e temas relacionados

Execuções de exemplo preparadas

Entradas

Resultado

Veja quando usar esta ferramenta, o que ela suporta e como os usuários a aplicam.

Fatos principais

Visão geral

Quando usar

Como funciona

Casos de uso

Exemplos

1. Avaliação de PDF para ingestão RAG

2. Auditoria de acessibilidade em relatórios

Perguntas frequentes

Exemplos PDF

Exemplos de Apresentacoes Markdown

Amostras ICS do Agendador por Fuso Horario

Amostras Go

Analisador de PDF com formulas e graficos

Removedor de ruido de cabecalho e rodape PDF

Depurador de ordem de leitura de PDF

Extrator de revisao com tachado em PDF

Ferramentas de Preparacao de PDF para LLM e RAG

Ferramentas de depuracao de extracao PDF e revisao de seguranca

Ferramentas de Arquivamento PDF, Acessibilidade e Revisao de Confianca

Ferramentas de chunking RAG, limpeza de corpus e preparo para retrieval