Explorador de estrutura JSON a partir de PDF

Extrai a estrutura JSON do OpenDataLoader de um PDF e exibe titulos, paragrafos, tabelas, listas e bounding boxes

Depois de enviar um PDF, a ferramenta gera JSON com OpenDataLoader e exibe titulos, paragrafos, listas, tabelas, paginas e bounding boxes em uma visao de exploracao. Isso ajuda a depurar a qualidade do parser e a camada semantica.

Exemplos de resultados

1 Exemplos

Explorar a estrutura semantica de um PDF

O sample real mostra 20 nos semanticos sem ler JSON bruto manualmente.

Explorer report showing 20 semantic nodes from brand-guidelines-pdf-example1.pdf with page metadata, node counts, and JSON preview.
Ver parâmetros de entrada
{ "pdfFile": "/public/samples/pdf/brand-guidelines-pdf-example1.pdf", "useStructTree": true, "sanitizeSensitiveData": false, "pages": "", "nodeFilter": "all", "searchTerm": "" }

Click to upload file or drag and drop file here

Maximum file size: 10MB Supported formats: application/pdf

Fatos principais

Categoria
Desenvolvimento e Web
Tipos de entrada
file, checkbox, text, select
Tipo de saída
html
Cobertura de amostras
4
API disponível
Yes

Visão geral

O Explorador de estrutura JSON a partir de PDF é uma ferramenta avançada que extrai a camada semântica de documentos usando o OpenDataLoader. Ao enviar o seu arquivo, ele gera uma visualização interativa em HTML que permite inspecionar títulos, parágrafos, tabelas, listas e caixas delimitadoras (bounding boxes). É a solução ideal para desenvolvedores e analistas de dados que precisam depurar a qualidade do parser, verificar metadados de páginas e compreender a estrutura exata extraída antes de integrar os dados em seus sistemas.

Quando usar

  • Quando precisar depurar a hierarquia de títulos e a qualidade da extração de texto de um PDF complexo.
  • Para verificar se as tabelas e listas do documento foram reconhecidas corretamente pelo parser semântico.
  • Ao auditar metadados de páginas e coordenadas de bounding boxes antes de alimentar modelos de IA ou bancos de dados.

Como funciona

  • Faça o upload do seu arquivo PDF na ferramenta.
  • Configure opções como o intervalo de páginas, filtros de nós (apenas tabelas, títulos ou listas) e se deseja usar a árvore estrutural.
  • A ferramenta processa o documento usando o OpenDataLoader para extrair a estrutura JSON subjacente.
  • Explore o resultado em uma interface visual interativa que detalha cada nó semântico, suas propriedades e localização no documento original.

Casos de uso

Depuração de parsers de PDF para garantir que a extração de dados estruturados esteja precisa.
Validação visual de tabelas financeiras ou relatórios extraídos antes da ingestão em pipelines de dados.
Mapeamento de coordenadas (bounding boxes) de elementos textuais para aplicações de visão computacional ou anotação de documentos.

Exemplos

1. Auditoria de Tabelas em Relatórios Financeiros

Engenheiro de Dados
Contexto
Precisa garantir que as tabelas de balanços patrimoniais em PDFs anuais sejam extraídas corretamente antes de automatizar a ingestão.
Problema
Verificar se o parser reconhece as linhas e colunas da tabela sem misturar com o texto do parágrafo.
Como usar
Faça o upload do relatório financeiro, defina o 'Filtro de nós' como 'Apenas tabelas' e processe o arquivo.
Configuração de exemplo
nodeFilter: 'table', useStructTree: true
Resultado
O explorador exibe apenas as tabelas extraídas, permitindo validar a estrutura JSON e as bounding boxes de cada célula.

2. Extração de Hierarquia de Títulos em Manuais

Desenvolvedor de IA
Contexto
Está construindo um sistema de RAG (Retrieval-Augmented Generation) baseado em manuais técnicos em PDF.
Problema
Garantir que a hierarquia de títulos (H1, H2, H3) esteja correta para que a divisão de chunks do texto faça sentido.
Como usar
Envie o manual em PDF, selecione 'Apenas títulos' no filtro de nós e insira um termo de busca se desejar focar em uma seção específica.
Configuração de exemplo
nodeFilter: 'heading', pages: '1-10'
Resultado
Uma visualização clara da árvore de títulos das primeiras 10 páginas, confirmando a correta identificação semântica pelo OpenDataLoader.

Testar com amostras

json, pdf, file

Hubs relacionados

FAQ

Quais tipos de elementos o explorador consegue identificar?

A ferramenta identifica títulos, parágrafos, tabelas, listas, metadados de páginas e coordenadas de bounding boxes (caixas delimitadoras).

Posso analisar apenas páginas específicas do meu PDF?

Sim, você pode usar o campo 'Páginas' para definir um intervalo específico (por exemplo, '1,3,5-7') e focar apenas no conteúdo relevante.

O que faz a opção de sanitizar dados sensíveis?

Quando ativada, essa opção oculta ou remove informações confidenciais identificadas durante a extração do JSON, protegendo a privacidade dos dados.

É possível filtrar a visualização para mostrar apenas tabelas?

Sim, o campo 'Filtro de nós' permite restringir a visualização para exibir apenas tabelas, apenas títulos, apenas listas ou todos os nós.

Qual é o formato de saída desta ferramenta?

A ferramenta gera um relatório visual em HTML (explorer view) que apresenta a estrutura JSON extraída de forma interativa e fácil de navegar.

Documentação da API

Ponto final da solicitação

POST /pt/api/tools/pdf-to-json-structure-explorer

Parâmetros da solicitação

Nome do parâmetro Tipo Requerido Descrição
pdfFile file (Upload necessário) Sim -
useStructTree checkbox Não -
sanitizeSensitiveData checkbox Não -
pages text Não -
nodeFilter select Não -
searchTerm text Não -

Os parâmetros de tipo arquivo precisam ser carregados primeiro via POST /upload/pdf-to-json-structure-explorer para obter filePath, depois filePath deve ser passado ao campo de arquivo correspondente.

Formato de resposta

{
  "result": "
Processed HTML content
", "error": "Error message (optional)", "message": "Notification message (optional)", "metadata": { "key": "value" } }
HTML: HTML

Documentação de MCP

Adicione este ferramenta à sua configuração de servidor MCP:

{
  "mcpServers": {
    "elysiatools-pdf-to-json-structure-explorer": {
      "name": "pdf-to-json-structure-explorer",
      "description": "Extrai a estrutura JSON do OpenDataLoader de um PDF e exibe titulos, paragrafos, tabelas, listas e bounding boxes",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=pdf-to-json-structure-explorer",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Você pode encadear várias ferramentas, ex: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, máx 20 ferramentas.

Suporta links de arquivos URL ou codificação Base64 para parâmetros de arquivo.

Se você encontrar algum problema, por favor, entre em contato conosco em [email protected]