Inspetor de PDF marcado

Compara a extracao com e sem StructTree para ver se o PDF possui estrutura marcada util

Depois de enviar um PDF, a ferramenta executa o OpenDataLoader com useStructTree=true e useStructTree=false e compara titulos, listas, tabelas e blocos de paragrafo. Isso ajuda a decidir se a estrutura marcada do PDF vale a pena em fluxos de acessibilidade, migracao e RAG.

Exemplos de resultados

1 Exemplos

Inspecionar se um PDF tem estrutura tagged util

O sample real produziu 20 vs 22 nos semanticos e diferencas em alguns titulos.

Real sample report comparing StructTree and plain extraction; this sample produced 20 vs 22 semantic nodes and showed heading-text differences.
Ver parâmetros de entrada
{ "pdfFile": "/public/samples/pdf/brand-guidelines-pdf-example1.pdf", "pages": "", "includeHeaderFooter": false }

Click to upload file or drag and drop file here

Maximum file size: 10MB Supported formats: application/pdf

Fatos principais

Categoria
Desenvolvimento e Web
Tipos de entrada
file, text, checkbox
Tipo de saída
html
Cobertura de amostras
4
API disponível
Yes

Visão geral

O Inspetor de PDF marcado é uma ferramenta de análise que compara a extração de dados de um PDF com e sem o suporte a StructTree. Ele permite visualizar rapidamente se o documento possui uma estrutura semântica útil, destacando diferenças na identificação de títulos, listas, tabelas e parágrafos. É ideal para desenvolvedores e engenheiros de dados que precisam avaliar a qualidade de PDFs para fluxos de acessibilidade, migração de conteúdo ou ingestão em sistemas RAG.

Quando usar

  • Para avaliar se a estrutura de um PDF é adequada para ingestão em sistemas RAG (Retrieval-Augmented Generation).
  • Para verificar a qualidade das marcações semânticas (tags) em auditorias de acessibilidade de documentos.
  • Para depurar falhas na extração de tabelas, listas e títulos antes de processar grandes volumes de PDFs.

Como funciona

  • Faça o upload do seu arquivo PDF e, opcionalmente, defina o intervalo de páginas e a inclusão de cabeçalhos e rodapés.
  • A ferramenta processa o documento duas vezes usando o OpenDataLoader: uma com `useStructTree=true` e outra com `useStructTree=false`.
  • Um relatório HTML é gerado lado a lado, destacando as diferenças na contagem de nós semânticos, títulos, listas e tabelas.

Casos de uso

Auditoria de documentos corporativos para garantir conformidade com padrões de acessibilidade digital.
Preparação e limpeza de dados não estruturados para treinamento de modelos de IA e pipelines RAG.
Migração de manuais e diretrizes de marca em PDF para formatos web estruturados (HTML/Markdown).

Exemplos

1. Avaliação de PDF para ingestão RAG

Engenheiro de Dados
Contexto
A equipe precisa extrair texto de diretrizes de marca em PDF para alimentar um assistente de IA, mas a extração simples está misturando títulos e parágrafos.
Problema
Descobrir se o PDF original possui uma árvore de estrutura (StructTree) confiável para separar o conteúdo corretamente.
Como usar
Faça o upload do arquivo `brand-guidelines-pdf-example1.pdf` e execute a ferramenta sem incluir cabeçalhos e rodapés.
Configuração de exemplo
Páginas: vazio, Incluir cabeçalho e rodapé: false
Resultado
O relatório HTML mostra que a extração com StructTree identificou 22 nós semânticos contra 20 da extração simples, preservando a hierarquia correta dos títulos.

2. Auditoria de acessibilidade em relatórios

Especialista em Acessibilidade
Contexto
Um órgão público publicou um relatório anual que deve ser legível por leitores de tela, mas há suspeitas de que as tabelas não estão marcadas.
Problema
Verificar rapidamente se as tabelas de dados nas páginas 10 a 15 possuem tags semânticas adequadas.
Como usar
Envie o relatório em PDF, defina o campo 'Páginas' como `10-15` e inicie a inspeção.
Configuração de exemplo
Páginas: 10-15
Resultado
A comparação revela que a extração com StructTree não encontrou tags de tabela, indicando que o PDF precisa ser remediado para acessibilidade.

Testar com amostras

pdf, file

Hubs relacionados

FAQ

O que é um PDF marcado (Tagged PDF)?

É um PDF que contém uma estrutura de tags oculta (StructTree) que define a ordem de leitura e a semântica dos elementos, como títulos, parágrafos e tabelas.

Por que comparar a extração com e sem StructTree?

Porque muitos PDFs possuem marcações incorretas, corrompidas ou ausentes. A comparação ajuda a decidir se é melhor confiar na estrutura nativa do arquivo ou usar heurísticas de extração visual.

Posso analisar apenas páginas específicas?

Sim, você pode usar o campo 'Páginas' para definir intervalos específicos (por exemplo, 1,3,5-7) e focar apenas nas seções relevantes do documento.

O que a ferramenta identifica na comparação?

Ela compara a quantidade e a precisão de nós semânticos, mostrando diferenças na detecção de blocos de texto, cabeçalhos, listas e estruturas tabulares.

Os cabeçalhos e rodapés afetam a análise?

Podem afetar. Você pode marcar a opção 'Incluir cabeçalho e rodapé' para ver como esses elementos repetitivos são tratados pela árvore de estrutura do PDF.

Documentação da API

Ponto final da solicitação

POST /pt/api/tools/tagged-pdf-inspector

Parâmetros da solicitação

Nome do parâmetro Tipo Requerido Descrição
pdfFile file (Upload necessário) Sim -
pages text Não -
includeHeaderFooter checkbox Não -

Os parâmetros de tipo arquivo precisam ser carregados primeiro via POST /upload/tagged-pdf-inspector para obter filePath, depois filePath deve ser passado ao campo de arquivo correspondente.

Formato de resposta

{
  "result": "
Processed HTML content
", "error": "Error message (optional)", "message": "Notification message (optional)", "metadata": { "key": "value" } }
HTML: HTML

Documentação de MCP

Adicione este ferramenta à sua configuração de servidor MCP:

{
  "mcpServers": {
    "elysiatools-tagged-pdf-inspector": {
      "name": "tagged-pdf-inspector",
      "description": "Compara a extracao com e sem StructTree para ver se o PDF possui estrutura marcada util",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=tagged-pdf-inspector",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Você pode encadear várias ferramentas, ex: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, máx 20 ferramentas.

Suporta links de arquivos URL ou codificação Base64 para parâmetros de arquivo.

Se você encontrar algum problema, por favor, entre em contato conosco em [email protected]