Fatos principais
- Categoria
- Dados e tabelas
- Tipos de entrada
- file, select, text, checkbox
- Tipo de saída
- file
- Cobertura de amostras
- 4
- API disponível
- Yes
Visão geral
O Extrator de tabelas PDF para CSV/JSON é uma ferramenta que utiliza o OpenDataLoader para identificar e extrair blocos de tabelas semânticas de documentos PDF. Com suporte para exportação em JSON estruturado, CSV achatado ou tabelas HTML visuais, ele facilita a extração e reutilização de dados complexos presentes em relatórios financeiros, faturas e pesquisas acadêmicas, preservando informações cruciais como número da página, caixas delimitadoras (bbox) e a estrutura original das células.
Quando usar
- •Quando precisar converter tabelas financeiras ou relatórios em PDF para formatos de dados estruturados como CSV ou JSON.
- •Para extrair dados de páginas específicas de um documento longo sem precisar processar o arquivo inteiro.
- •Quando for necessário preservar a estrutura semântica e as coordenadas (bbox) das tabelas originais para integração em outros sistemas.
Como funciona
- •Faça o upload do arquivo PDF contendo as tabelas que deseja extrair.
- •Selecione o formato de exportação desejado (JSON, CSV ou HTML) e o método de detecção de tabelas (Padrão ou Cluster).
- •Opcionalmente, defina as páginas específicas (ex: 1,3,5-7) e ative o uso da árvore estrutural para refinar a extração.
- •Baixe o arquivo gerado com os dados da tabela extraídos e formatados conforme sua configuração.
Casos de uso
Exemplos
1. Extração de balanço financeiro para JSON
Analista de Dados- Contexto
- Um analista precisa processar relatórios financeiros em PDF e integrar os dados das tabelas em um banco de dados NoSQL.
- Problema
- Copiar e colar tabelas do PDF quebra a formatação e perde a referência da página original e a estrutura das células.
- Como usar
- Envie o arquivo PDF do relatório, selecione o formato de exportação 'JSON', defina o método de detecção como 'Cluster' e especifique as páginas desejadas.
- Configuração de exemplo
-
{"exportFormat": "json", "tableMethod": "cluster", "pages": "2-5"} - Resultado
- Um arquivo JSON estruturado contendo os dados das tabelas das páginas 2 a 5, preservando as coordenadas (bbox) e a estrutura exata das células.
2. Conversão de lista de preços para CSV
Assistente Administrativo- Contexto
- Um fornecedor enviou um catálogo de produtos com preços em um PDF de 20 páginas.
- Problema
- É necessário importar a lista de preços para o Excel ou ERP, mas o PDF não permite importação direta de dados tabulares.
- Como usar
- Faça o upload do catálogo em PDF, escolha 'CSV' como formato de exportação e deixe as configurações de método como padrão.
- Configuração de exemplo
-
{"exportFormat": "csv", "tableMethod": "default"} - Resultado
- Um arquivo CSV com todas as células achatadas em formato de tabela (página, linha, coluna, valor), pronto para ser aberto no Excel ou importado para o sistema.
Testar com amostras
json, csv, htmlHubs relacionados
FAQ
Quais formatos de exportação estão disponíveis?
Você pode exportar as tabelas extraídas em JSON (preserva estrutura e bbox), CSV (achata as células em linhas e colunas) ou HTML (gera tabelas visuais).
Posso extrair tabelas de páginas específicas?
Sim, você pode usar o campo 'Páginas' para definir intervalos exatos, como '1,3,5-7', processando apenas as partes necessárias do PDF.
O que é o método de detecção 'Cluster'?
É um algoritmo alternativo de detecção de tabelas que agrupa elementos próximos no PDF, útil para layouts complexos onde o método padrão pode não identificar a tabela corretamente.
A ferramenta faz OCR em PDFs digitalizados como imagens?
Não, a ferramenta extrai dados de PDFs baseados em texto e árvores estruturais, não suportando reconhecimento óptico de caracteres (OCR) em documentos escaneados.
O que a opção 'Usar árvore estrutural' faz?
Ela orienta o extrator a utilizar as tags estruturais internas do PDF (se existirem no documento) para identificar linhas e colunas com maior precisão.