Fatos principais
- Categoria
- Desenvolvimento e Web
- Tipos de entrada
- file, text, checkbox
- Tipo de saída
- html
- Cobertura de amostras
- 4
- API disponível
- Yes
Visão geral
O Inspetor de PDF marcado é uma ferramenta de análise que compara a extração de dados de um PDF com e sem o suporte a StructTree. Ele permite visualizar rapidamente se o documento possui uma estrutura semântica útil, destacando diferenças na identificação de títulos, listas, tabelas e parágrafos. É ideal para desenvolvedores e engenheiros de dados que precisam avaliar a qualidade de PDFs para fluxos de acessibilidade, migração de conteúdo ou ingestão em sistemas RAG.
Quando usar
- •Para avaliar se a estrutura de um PDF é adequada para ingestão em sistemas RAG (Retrieval-Augmented Generation).
- •Para verificar a qualidade das marcações semânticas (tags) em auditorias de acessibilidade de documentos.
- •Para depurar falhas na extração de tabelas, listas e títulos antes de processar grandes volumes de PDFs.
Como funciona
- •Faça o upload do seu arquivo PDF e, opcionalmente, defina o intervalo de páginas e a inclusão de cabeçalhos e rodapés.
- •A ferramenta processa o documento duas vezes usando o OpenDataLoader: uma com `useStructTree=true` e outra com `useStructTree=false`.
- •Um relatório HTML é gerado lado a lado, destacando as diferenças na contagem de nós semânticos, títulos, listas e tabelas.
Casos de uso
Exemplos
1. Avaliação de PDF para ingestão RAG
Engenheiro de Dados- Contexto
- A equipe precisa extrair texto de diretrizes de marca em PDF para alimentar um assistente de IA, mas a extração simples está misturando títulos e parágrafos.
- Problema
- Descobrir se o PDF original possui uma árvore de estrutura (StructTree) confiável para separar o conteúdo corretamente.
- Como usar
- Faça o upload do arquivo `brand-guidelines-pdf-example1.pdf` e execute a ferramenta sem incluir cabeçalhos e rodapés.
- Configuração de exemplo
-
Páginas: vazio, Incluir cabeçalho e rodapé: false - Resultado
- O relatório HTML mostra que a extração com StructTree identificou 22 nós semânticos contra 20 da extração simples, preservando a hierarquia correta dos títulos.
2. Auditoria de acessibilidade em relatórios
Especialista em Acessibilidade- Contexto
- Um órgão público publicou um relatório anual que deve ser legível por leitores de tela, mas há suspeitas de que as tabelas não estão marcadas.
- Problema
- Verificar rapidamente se as tabelas de dados nas páginas 10 a 15 possuem tags semânticas adequadas.
- Como usar
- Envie o relatório em PDF, defina o campo 'Páginas' como `10-15` e inicie a inspeção.
- Configuração de exemplo
-
Páginas: 10-15 - Resultado
- A comparação revela que a extração com StructTree não encontrou tags de tabela, indicando que o PDF precisa ser remediado para acessibilidade.
Testar com amostras
pdf, fileHubs relacionados
FAQ
O que é um PDF marcado (Tagged PDF)?
É um PDF que contém uma estrutura de tags oculta (StructTree) que define a ordem de leitura e a semântica dos elementos, como títulos, parágrafos e tabelas.
Por que comparar a extração com e sem StructTree?
Porque muitos PDFs possuem marcações incorretas, corrompidas ou ausentes. A comparação ajuda a decidir se é melhor confiar na estrutura nativa do arquivo ou usar heurísticas de extração visual.
Posso analisar apenas páginas específicas?
Sim, você pode usar o campo 'Páginas' para definir intervalos específicos (por exemplo, 1,3,5-7) e focar apenas nas seções relevantes do documento.
O que a ferramenta identifica na comparação?
Ela compara a quantidade e a precisão de nós semânticos, mostrando diferenças na detecção de blocos de texto, cabeçalhos, listas e estruturas tabulares.
Os cabeçalhos e rodapés afetam a análise?
Podem afetar. Você pode marcar a opção 'Incluir cabeçalho e rodapé' para ver como esses elementos repetitivos são tratados pela árvore de estrutura do PDF.