Datos clave
- Categoría
- Desarrollo y Web
- Tipos de entrada
- file, checkbox, text, select
- Tipo de salida
- html
- Cobertura de muestras
- 4
- API disponible
- Yes
Resumen
El Explorador de estructura JSON desde PDF es una herramienta de desarrollo diseñada para extraer y visualizar la capa semántica de documentos PDF utilizando OpenDataLoader. Al subir un archivo, genera un reporte interactivo en HTML que permite inspeccionar encabezados, párrafos, tablas, listas y sus respectivas coordenadas (bounding boxes), facilitando la depuración del parser y la validación de la estructura de los datos extraídos.
Cuándo usarlo
- •Cuando necesitas depurar la calidad de extracción de un parser de PDF y verificar la jerarquía de los encabezados.
- •Para inspeccionar visualmente las coordenadas (bounding boxes) de elementos específicos como tablas o listas dentro de una página.
- •Al auditar la estructura semántica de un documento antes de integrarlo en flujos de trabajo de procesamiento de datos o modelos de lenguaje.
Cómo funciona
- •Sube tu archivo PDF utilizando el campo principal de carga.
- •Configura opciones adicionales como el uso del árbol estructural, la sanitización de datos sensibles o el rango de páginas a procesar.
- •Aplica filtros de nodos (por ejemplo, solo tablas o encabezados) o ingresa un término de búsqueda si deseas aislar elementos específicos.
- •La herramienta procesa el documento y devuelve una vista exploradora en HTML con los nodos semánticos, metadatos de página y el JSON generado.
Casos de uso
Ejemplos
1. Exploración de estructura en manuales de marca
Desarrollador de Datos- Contexto
- Un equipo necesita extraer reglas de diseño de un manual de marca en PDF, pero el texto parece desordenado al copiarlo directamente.
- Problema
- Visualizar cómo el parser interpreta los bloques de texto y las listas del documento para ajustar el script de extracción.
- Cómo usarlo
- Sube el archivo PDF del manual, mantén activado 'Usar árbol estructural' y selecciona el filtro 'Todos los nodos'.
- Configuración de ejemplo
-
{ "useStructTree": true, "nodeFilter": "all" } - Resultado
- Se genera un reporte HTML mostrando los nodos semánticos ordenados, permitiendo al desarrollador ver exactamente qué texto pertenece a cada encabezado y lista.
2. Aislamiento de tablas en reportes financieros
Ingeniero de Machine Learning- Contexto
- Se requiere extraer únicamente los datos tabulares de un reporte de ganancias de 50 páginas para alimentar un modelo financiero.
- Problema
- Verificar rápidamente si el parser detecta correctamente las tablas sin tener que leer todo el JSON bruto.
- Cómo usarlo
- Sube el reporte financiero en PDF, especifica las páginas donde están los datos (ej. '10-15') y cambia el filtro de nodos a 'Solo tablas'.
- Configuración de ejemplo
-
{ "pages": "10-15", "nodeFilter": "table" } - Resultado
- La vista del explorador muestra exclusivamente las tablas encontradas en las páginas 10 a 15, con sus respectivas coordenadas y contenido estructurado.
Probar con muestras
json, pdf, fileHubs relacionados
Preguntas frecuentes
¿Qué tipos de elementos puedo explorar con esta herramienta?
Puedes explorar encabezados, párrafos, tablas, listas, metadatos de páginas y las coordenadas (bounding boxes) de cada elemento detectado en el PDF.
¿Puedo analizar solo páginas específicas de mi PDF?
Sí, puedes usar el campo de páginas para definir rangos específicos, como '1,3,5-7', y procesar únicamente esas secciones del documento.
¿Es posible filtrar los resultados para ver solo las tablas?
Sí, el filtro de nodos te permite seleccionar 'Solo tablas', 'Solo encabezados', 'Solo listas' o 'Todos los nodos' según lo que necesites revisar.
¿Qué hace la opción de usar el árbol estructural?
Activa la lectura de la estructura interna del PDF (si el documento está etiquetado) para mejorar la precisión en la detección de la jerarquía semántica y el orden de lectura.
¿En qué formato se entregan los resultados?
El resultado es un reporte interactivo en formato HTML que muestra la vista del explorador con los nodos semánticos y una vista previa del JSON estructurado.