Extrator de tabelas PDF para CSV/JSON

Extrai tabelas de PDF com OpenDataLoader e exporta em JSON, CSV ou HTML

Depois de enviar um PDF, a ferramenta usa o OpenDataLoader para detectar tabelas semanticas e exporta no formato escolhido. JSON preserva pagina, bbox e estrutura; CSV achata as celulas; HTML gera tabelas visuais.

Exemplos de resultados

1 Exemplos

Extrair tabelas de um relatorio

O sample real extraiu 2 tabelas e as salvou em JSON estruturado.

pdf-table-extractor-to-csv-json-example1.json Ver arquivo
Ver parâmetros de entrada
{ "pdfFile": "/public/samples/pdf/financial-report-example1.pdf", "exportFormat": "json", "tableMethod": "cluster", "pages": "", "useStructTree": false }

Click to upload file or drag and drop file here

Maximum file size: 10MB Supported formats: application/pdf

Fatos principais

Categoria
Dados e tabelas
Tipos de entrada
file, select, text, checkbox
Tipo de saída
file
Cobertura de amostras
4
API disponível
Yes

Visão geral

O Extrator de tabelas PDF para CSV/JSON é uma ferramenta que utiliza o OpenDataLoader para identificar e extrair blocos de tabelas semânticas de documentos PDF. Com suporte para exportação em JSON estruturado, CSV achatado ou tabelas HTML visuais, ele facilita a extração e reutilização de dados complexos presentes em relatórios financeiros, faturas e pesquisas acadêmicas, preservando informações cruciais como número da página, caixas delimitadoras (bbox) e a estrutura original das células.

Quando usar

  • Quando precisar converter tabelas financeiras ou relatórios em PDF para formatos de dados estruturados como CSV ou JSON.
  • Para extrair dados de páginas específicas de um documento longo sem precisar processar o arquivo inteiro.
  • Quando for necessário preservar a estrutura semântica e as coordenadas (bbox) das tabelas originais para integração em outros sistemas.

Como funciona

  • Faça o upload do arquivo PDF contendo as tabelas que deseja extrair.
  • Selecione o formato de exportação desejado (JSON, CSV ou HTML) e o método de detecção de tabelas (Padrão ou Cluster).
  • Opcionalmente, defina as páginas específicas (ex: 1,3,5-7) e ative o uso da árvore estrutural para refinar a extração.
  • Baixe o arquivo gerado com os dados da tabela extraídos e formatados conforme sua configuração.

Casos de uso

Analistas financeiros extraindo balanços patrimoniais e demonstrativos de resultados de relatórios anuais em PDF para planilhas.
Pesquisadores convertendo tabelas de dados de artigos científicos em arquivos JSON para análise em scripts Python ou R.
Equipes de contabilidade transformando faturas e extratos bancários em PDF para o formato CSV para importação em softwares de gestão.

Exemplos

1. Extração de balanço financeiro para JSON

Analista de Dados
Contexto
Um analista precisa processar relatórios financeiros em PDF e integrar os dados das tabelas em um banco de dados NoSQL.
Problema
Copiar e colar tabelas do PDF quebra a formatação e perde a referência da página original e a estrutura das células.
Como usar
Envie o arquivo PDF do relatório, selecione o formato de exportação 'JSON', defina o método de detecção como 'Cluster' e especifique as páginas desejadas.
Configuração de exemplo
{"exportFormat": "json", "tableMethod": "cluster", "pages": "2-5"}
Resultado
Um arquivo JSON estruturado contendo os dados das tabelas das páginas 2 a 5, preservando as coordenadas (bbox) e a estrutura exata das células.

2. Conversão de lista de preços para CSV

Assistente Administrativo
Contexto
Um fornecedor enviou um catálogo de produtos com preços em um PDF de 20 páginas.
Problema
É necessário importar a lista de preços para o Excel ou ERP, mas o PDF não permite importação direta de dados tabulares.
Como usar
Faça o upload do catálogo em PDF, escolha 'CSV' como formato de exportação e deixe as configurações de método como padrão.
Configuração de exemplo
{"exportFormat": "csv", "tableMethod": "default"}
Resultado
Um arquivo CSV com todas as células achatadas em formato de tabela (página, linha, coluna, valor), pronto para ser aberto no Excel ou importado para o sistema.

Testar com amostras

json, csv, html

Hubs relacionados

FAQ

Quais formatos de exportação estão disponíveis?

Você pode exportar as tabelas extraídas em JSON (preserva estrutura e bbox), CSV (achata as células em linhas e colunas) ou HTML (gera tabelas visuais).

Posso extrair tabelas de páginas específicas?

Sim, você pode usar o campo 'Páginas' para definir intervalos exatos, como '1,3,5-7', processando apenas as partes necessárias do PDF.

O que é o método de detecção 'Cluster'?

É um algoritmo alternativo de detecção de tabelas que agrupa elementos próximos no PDF, útil para layouts complexos onde o método padrão pode não identificar a tabela corretamente.

A ferramenta faz OCR em PDFs digitalizados como imagens?

Não, a ferramenta extrai dados de PDFs baseados em texto e árvores estruturais, não suportando reconhecimento óptico de caracteres (OCR) em documentos escaneados.

O que a opção 'Usar árvore estrutural' faz?

Ela orienta o extrator a utilizar as tags estruturais internas do PDF (se existirem no documento) para identificar linhas e colunas com maior precisão.

Documentação da API

Ponto final da solicitação

POST /pt/api/tools/pdf-table-extractor-to-csv-json

Parâmetros da solicitação

Nome do parâmetro Tipo Requerido Descrição
pdfFile file (Upload necessário) Sim -
exportFormat select Não -
tableMethod select Não -
pages text Não -
useStructTree checkbox Não -

Os parâmetros de tipo arquivo precisam ser carregados primeiro via POST /upload/pdf-table-extractor-to-csv-json para obter filePath, depois filePath deve ser passado ao campo de arquivo correspondente.

Formato de resposta

{
  "filePath": "/public/processing/randomid.ext",
  "fileName": "output.ext",
  "contentType": "application/octet-stream",
  "size": 1024,
  "metadata": {
    "key": "value"
  },
  "error": "Error message (optional)",
  "message": "Notification message (optional)"
}
Arquivo: Arquivo

Documentação de MCP

Adicione este ferramenta à sua configuração de servidor MCP:

{
  "mcpServers": {
    "elysiatools-pdf-table-extractor-to-csv-json": {
      "name": "pdf-table-extractor-to-csv-json",
      "description": "Extrai tabelas de PDF com OpenDataLoader e exporta em JSON, CSV ou HTML",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=pdf-table-extractor-to-csv-json",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Você pode encadear várias ferramentas, ex: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, máx 20 ferramentas.

Suporta links de arquivos URL ou codificação Base64 para parâmetros de arquivo.

Se você encontrar algum problema, por favor, entre em contato conosco em [email protected]