Extractor de tablas PDF a CSV/JSON

Extrae tablas de PDF con OpenDataLoader y las exporta como JSON estructurado, CSV o HTML

Tras subir un PDF, la herramienta usa OpenDataLoader para detectar tablas semanticas y luego exportarlas segun el formato elegido. JSON conserva pagina, bbox y estructura; CSV aplana cada celda; HTML genera tablas visuales.

Resultados de ejemplo

1 Ejemplos

Extraer tablas de un informe para analisis

El sample real extrajo 2 tablas y las guardo en JSON estructurado.

pdf-table-extractor-to-csv-json-example1.json Ver archivo
Ver parámetros de entrada
{ "pdfFile": "/public/samples/pdf/financial-report-example1.pdf", "exportFormat": "json", "tableMethod": "cluster", "pages": "", "useStructTree": false }

Click to upload file or drag and drop file here

Maximum file size: 10MB Supported formats: application/pdf

Datos clave

Categoría
Datos y tablas
Tipos de entrada
file, select, text, checkbox
Tipo de salida
file
Cobertura de muestras
4
API disponible
Yes

Resumen

Esta herramienta extrae automáticamente tablas de documentos PDF utilizando OpenDataLoader y las exporta en formatos estructurados como JSON, CSV o HTML. Es ideal para procesar informes financieros, documentos de investigación y facturas, permitiendo conservar la estructura original de las celdas, las coordenadas y la paginación para facilitar su posterior análisis o integración en bases de datos.

Cuándo usarlo

  • Cuando necesitas analizar datos financieros o estadísticos atrapados en documentos PDF.
  • Para migrar tablas de informes en PDF a bases de datos o hojas de cálculo sin copiar y pegar manualmente.
  • Al procesar documentos estructurados donde se requiere extraer información tabular específica filtrando por páginas.

Cómo funciona

  • Sube tu archivo PDF al sistema.
  • Selecciona el formato de exportación deseado (JSON estructurado, CSV plano o tabla HTML visual).
  • Opcionalmente, define las páginas específicas a procesar y ajusta el método de detección de tablas (Predeterminado o Cluster).
  • Descarga el archivo resultante con los datos tabulares extraídos y listos para usar.

Casos de uso

Extracción de balances y estados de resultados desde informes anuales en PDF a formato CSV para análisis en Excel.
Conversión de catálogos de productos en PDF a JSON estructurado para alimentar una tienda online o base de datos.
Transformación de tablas de datos científicos en PDF a HTML para publicarlas directamente en una página web.

Ejemplos

1. Extracción de tablas de un informe financiero

Analista de datos
Contexto
Un analista necesita extraer los datos de ingresos y gastos de un reporte trimestral en PDF.
Problema
Copiar y pegar las tablas del PDF a Excel desordena las columnas y mezcla los datos, requiriendo horas de limpieza manual.
Cómo usarlo
Sube el archivo PDF del informe, selecciona 'JSON' como formato de exportación y elige el método 'Cluster'.
Configuración de ejemplo
{
  "exportFormat": "json",
  "tableMethod": "cluster",
  "useStructTree": false
}
Resultado
Se genera un archivo JSON estructurado que contiene las tablas del informe, conservando la paginación y la disposición exacta de las celdas para su análisis automatizado.

2. Conversión de datos de investigación a CSV

Investigador
Contexto
Un investigador tiene un documento PDF de 50 páginas con múltiples tablas de resultados de laboratorio.
Problema
Necesita importar únicamente las tablas de las páginas 10 a 12 a su software de estadística sin transcribir los datos.
Cómo usarlo
Sube el PDF, selecciona 'CSV' como formato de exportación y escribe '10-12' en el campo de páginas.
Configuración de ejemplo
{
  "exportFormat": "csv",
  "pages": "10-12"
}
Resultado
Obtiene un archivo CSV plano con los datos extraídos exclusivamente de las páginas indicadas, listo para ser importado y analizado en su software.

Probar con muestras

json, csv, html

Hubs relacionados

Preguntas frecuentes

¿Qué formatos de exportación admite la herramienta?

Puedes exportar las tablas extraídas en formato JSON (conserva estructura y metadatos), CSV (datos aplanados) o HTML (visualización web).

¿Puedo extraer tablas solo de páginas específicas?

Sí, puedes indicar los números de página exactos o rangos (por ejemplo, 1,3,5-7) en el campo de configuración de páginas.

¿Qué es el método de detección Cluster?

Es un algoritmo de OpenDataLoader que agrupa elementos de texto cercanos para formar celdas y tablas, útil para PDFs con diseños complejos o sin líneas divisorias claras.

¿Qué hace la opción 'Usar árbol estructural'?

Intenta utilizar las etiquetas de estructura internas del PDF (si el documento fue creado con ellas) para identificar las tablas con mayor precisión.

¿El formato CSV mantiene la estructura visual de la tabla?

El formato CSV aplana los datos, organizándolos por tabla, página, fila, columna y valor, lo que es ideal para importar a bases de datos o procesar mediante scripts.

Documentación de la API

Punto final de la solicitud

POST /es/api/tools/pdf-table-extractor-to-csv-json

Parámetros de la solicitud

Nombre del parámetro Tipo Requerido Descripción
pdfFile file (Subida requerida) -
exportFormat select No -
tableMethod select No -
pages text No -
useStructTree checkbox No -

Los parámetros de tipo archivo necesitan ser subidos primero vía POST /upload/pdf-table-extractor-to-csv-json para obtener filePath, luego pasar filePath al campo de archivo correspondiente.

Formato de respuesta

{
  "filePath": "/public/processing/randomid.ext",
  "fileName": "output.ext",
  "contentType": "application/octet-stream",
  "size": 1024,
  "metadata": {
    "key": "value"
  },
  "error": "Error message (optional)",
  "message": "Notification message (optional)"
}
Archivo: Archivo

Documentación de MCP

Agregue este herramienta a su configuración de servidor MCP:

{
  "mcpServers": {
    "elysiatools-pdf-table-extractor-to-csv-json": {
      "name": "pdf-table-extractor-to-csv-json",
      "description": "Extrae tablas de PDF con OpenDataLoader y las exporta como JSON estructurado, CSV o HTML",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=pdf-table-extractor-to-csv-json",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Puede encadenar múltiples herramientas, por ejemplo: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, máximo 20 herramientas.

Soporte para enlaces de archivos URL o codificación Base64 para parámetros de archivo.

Si encuentra algún problema, por favor, póngase en contacto con nosotros en [email protected]