Explorador de estructura JSON desde PDF

Extrae la estructura JSON de OpenDataLoader desde un PDF y muestra encabezados, parrafos, tablas, listas y bounding boxes

Tras subir un PDF, la herramienta genera JSON con OpenDataLoader y lo convierte en un explorador de encabezados, parrafos, listas, tablas, paginas y bounding boxes. Es util para depurar la calidad del parser y revisar la capa semantica.

Resultados de ejemplo

1 Ejemplos

Explorar la estructura semantica de un PDF

El sample real muestra 20 nodos semanticos sin tener que leer JSON bruto.

Explorer report showing 20 semantic nodes from brand-guidelines-pdf-example1.pdf with page metadata, node counts, and JSON preview.
Ver parámetros de entrada
{ "pdfFile": "/public/samples/pdf/brand-guidelines-pdf-example1.pdf", "useStructTree": true, "sanitizeSensitiveData": false, "pages": "", "nodeFilter": "all", "searchTerm": "" }

Click to upload file or drag and drop file here

Maximum file size: 10MB Supported formats: application/pdf

Datos clave

Categoría
Desarrollo y Web
Tipos de entrada
file, checkbox, text, select
Tipo de salida
html
Cobertura de muestras
4
API disponible
Yes

Resumen

El Explorador de estructura JSON desde PDF es una herramienta de desarrollo diseñada para extraer y visualizar la capa semántica de documentos PDF utilizando OpenDataLoader. Al subir un archivo, genera un reporte interactivo en HTML que permite inspeccionar encabezados, párrafos, tablas, listas y sus respectivas coordenadas (bounding boxes), facilitando la depuración del parser y la validación de la estructura de los datos extraídos.

Cuándo usarlo

  • Cuando necesitas depurar la calidad de extracción de un parser de PDF y verificar la jerarquía de los encabezados.
  • Para inspeccionar visualmente las coordenadas (bounding boxes) de elementos específicos como tablas o listas dentro de una página.
  • Al auditar la estructura semántica de un documento antes de integrarlo en flujos de trabajo de procesamiento de datos o modelos de lenguaje.

Cómo funciona

  • Sube tu archivo PDF utilizando el campo principal de carga.
  • Configura opciones adicionales como el uso del árbol estructural, la sanitización de datos sensibles o el rango de páginas a procesar.
  • Aplica filtros de nodos (por ejemplo, solo tablas o encabezados) o ingresa un término de búsqueda si deseas aislar elementos específicos.
  • La herramienta procesa el documento y devuelve una vista exploradora en HTML con los nodos semánticos, metadatos de página y el JSON generado.

Casos de uso

Validación de la extracción de tablas financieras en reportes anuales para asegurar que las filas y columnas se detecten correctamente.
Revisión de la jerarquía de títulos y subtítulos en manuales técnicos antes de su indexación en bases de datos vectoriales.
Depuración de coordenadas de bounding boxes en documentos escaneados para ajustar plantillas de extracción de datos.

Ejemplos

1. Exploración de estructura en manuales de marca

Desarrollador de Datos
Contexto
Un equipo necesita extraer reglas de diseño de un manual de marca en PDF, pero el texto parece desordenado al copiarlo directamente.
Problema
Visualizar cómo el parser interpreta los bloques de texto y las listas del documento para ajustar el script de extracción.
Cómo usarlo
Sube el archivo PDF del manual, mantén activado 'Usar árbol estructural' y selecciona el filtro 'Todos los nodos'.
Configuración de ejemplo
{
  "useStructTree": true,
  "nodeFilter": "all"
}
Resultado
Se genera un reporte HTML mostrando los nodos semánticos ordenados, permitiendo al desarrollador ver exactamente qué texto pertenece a cada encabezado y lista.

2. Aislamiento de tablas en reportes financieros

Ingeniero de Machine Learning
Contexto
Se requiere extraer únicamente los datos tabulares de un reporte de ganancias de 50 páginas para alimentar un modelo financiero.
Problema
Verificar rápidamente si el parser detecta correctamente las tablas sin tener que leer todo el JSON bruto.
Cómo usarlo
Sube el reporte financiero en PDF, especifica las páginas donde están los datos (ej. '10-15') y cambia el filtro de nodos a 'Solo tablas'.
Configuración de ejemplo
{
  "pages": "10-15",
  "nodeFilter": "table"
}
Resultado
La vista del explorador muestra exclusivamente las tablas encontradas en las páginas 10 a 15, con sus respectivas coordenadas y contenido estructurado.

Probar con muestras

json, pdf, file

Hubs relacionados

Preguntas frecuentes

¿Qué tipos de elementos puedo explorar con esta herramienta?

Puedes explorar encabezados, párrafos, tablas, listas, metadatos de páginas y las coordenadas (bounding boxes) de cada elemento detectado en el PDF.

¿Puedo analizar solo páginas específicas de mi PDF?

Sí, puedes usar el campo de páginas para definir rangos específicos, como '1,3,5-7', y procesar únicamente esas secciones del documento.

¿Es posible filtrar los resultados para ver solo las tablas?

Sí, el filtro de nodos te permite seleccionar 'Solo tablas', 'Solo encabezados', 'Solo listas' o 'Todos los nodos' según lo que necesites revisar.

¿Qué hace la opción de usar el árbol estructural?

Activa la lectura de la estructura interna del PDF (si el documento está etiquetado) para mejorar la precisión en la detección de la jerarquía semántica y el orden de lectura.

¿En qué formato se entregan los resultados?

El resultado es un reporte interactivo en formato HTML que muestra la vista del explorador con los nodos semánticos y una vista previa del JSON estructurado.

Documentación de la API

Punto final de la solicitud

POST /es/api/tools/pdf-to-json-structure-explorer

Parámetros de la solicitud

Nombre del parámetro Tipo Requerido Descripción
pdfFile file (Subida requerida) -
useStructTree checkbox No -
sanitizeSensitiveData checkbox No -
pages text No -
nodeFilter select No -
searchTerm text No -

Los parámetros de tipo archivo necesitan ser subidos primero vía POST /upload/pdf-to-json-structure-explorer para obtener filePath, luego pasar filePath al campo de archivo correspondiente.

Formato de respuesta

{
  "result": "
Processed HTML content
", "error": "Error message (optional)", "message": "Notification message (optional)", "metadata": { "key": "value" } }
HTML: HTML

Documentación de MCP

Agregue este herramienta a su configuración de servidor MCP:

{
  "mcpServers": {
    "elysiatools-pdf-to-json-structure-explorer": {
      "name": "pdf-to-json-structure-explorer",
      "description": "Extrae la estructura JSON de OpenDataLoader desde un PDF y muestra encabezados, parrafos, tablas, listas y bounding boxes",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=pdf-to-json-structure-explorer",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Puede encadenar múltiples herramientas, por ejemplo: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, máximo 20 herramientas.

Soporte para enlaces de archivos URL o codificación Base64 para parámetros de archivo.

Si encuentra algún problema, por favor, póngase en contacto con nosotros en [email protected]