Inspector de PDF etiquetado

Compara la extraccion con y sin StructTree para ver si el PDF tiene estructura etiquetada util

Tras subir un PDF, la herramienta ejecuta OpenDataLoader con useStructTree=true y useStructTree=false, y compara titulos, listas, tablas y bloques de parrafo. Sirve para decidir si la estructura etiquetada del PDF merece ser aprovechada.

Resultados de ejemplo

1 Ejemplos

Inspeccionar si un PDF de marca tiene estructura etiquetada

El sample real produjo 20 vs 22 nodos semanticos y diferencias en algunos titulos.

Real sample report comparing StructTree and plain extraction; this sample produced 20 vs 22 semantic nodes and showed heading-text differences.
Ver parámetros de entrada
{ "pdfFile": "/public/samples/pdf/brand-guidelines-pdf-example1.pdf", "pages": "", "includeHeaderFooter": false }

Click to upload file or drag and drop file here

Maximum file size: 10MB Supported formats: application/pdf

Datos clave

Categoría
Desarrollo y Web
Tipos de entrada
file, text, checkbox
Tipo de salida
html
Cobertura de muestras
4
API disponible
Yes

Resumen

El Inspector de PDF etiquetado es una herramienta de análisis que compara la extracción de datos de un documento PDF con y sin el soporte de StructTree. Al procesar el archivo en ambos modos, genera un informe visual que contrasta la cantidad de nodos semánticos, títulos, listas y tablas detectadas. Esto permite a los desarrolladores evaluar rápidamente si la estructura interna del PDF es lo suficientemente rica y precisa para ser utilizada en proyectos de accesibilidad, migración de contenido o sistemas RAG (Generación Aumentada por Recuperación).

Cuándo usarlo

  • Cuando necesitas verificar si un documento PDF contiene etiquetas semánticas (Tagged PDF) válidas antes de procesarlo en un pipeline de datos.
  • Para diagnosticar problemas de extracción de texto donde los títulos, listas o tablas no se reconocen correctamente con métodos tradicionales.
  • Al preparar flujos de ingesta de datos para modelos RAG y decidir si confiar en la estructura interna del PDF o usar heurísticas visuales.

Cómo funciona

  • Sube tu archivo PDF utilizando el campo principal de entrada.
  • Opcionalmente, especifica un rango de páginas (por ejemplo, 1,3,5-7) y decide si deseas incluir encabezados y pies de página en la extracción.
  • La herramienta ejecuta OpenDataLoader dos veces: una con el soporte de StructTree activado y otra desactivado.
  • Finalmente, genera un informe HTML comparativo que resalta las diferencias en la detección de nodos semánticos, jerarquía de títulos y tablas.

Casos de uso

Auditoría de accesibilidad documental para comprobar si los PDF generados por un sistema corporativo cumplen con los estándares de etiquetado.
Optimización de pipelines de datos RAG, determinando si el árbol de estructura del PDF mejora la fragmentación (chunking) del texto.
Depuración de herramientas de conversión de PDF a HTML o Markdown cuando el formato de salida pierde la jerarquía original de los títulos.

Ejemplos

1. Evaluación de guías de marca corporativa

Ingeniero de Datos
Contexto
Se necesita extraer el texto de un manual de marca en PDF para alimentar la base de conocimientos de un chatbot corporativo.
Problema
No está claro si el PDF exportado desde el software de diseño tiene una estructura semántica útil para separar las secciones correctamente.
Cómo usarlo
Sube el archivo PDF de la guía de marca, deja el rango de páginas en blanco y ejecuta la comparación.
Configuración de ejemplo
Páginas: (vacío), Incluir encabezado y pie: false
Resultado
El informe HTML muestra 22 nodos semánticos con StructTree frente a 20 sin él, revelando diferencias en los títulos y confirmando que el PDF tiene etiquetas útiles para la ingesta de datos.

2. Análisis de tablas en un informe financiero

Desarrollador Backend
Contexto
Un sistema automatizado procesa informes anuales extensos, pero las tablas a menudo se extraen como texto plano desordenado.
Problema
Verificar si las tablas ubicadas en las páginas 15 a 20 están correctamente etiquetadas en el PDF original para mejorar su extracción.
Cómo usarlo
Sube el informe financiero, introduce '15-20' en el campo de páginas y marca la opción de incluir encabezados y pies de página.
Configuración de ejemplo
Páginas: 15-20, Incluir encabezado y pie: true
Resultado
La comparación revela que el StructTree del PDF no identifica las tablas correctamente, lo que indica que el sistema deberá usar heurísticas en lugar de depender de las etiquetas internas.

Probar con muestras

pdf, file

Hubs relacionados

Preguntas frecuentes

¿Qué es un PDF etiquetado (Tagged PDF)?

Es un PDF que contiene una estructura de árbol oculta (StructTree) que define la semántica del contenido, indicando qué texto corresponde a un título, un párrafo, una lista o una tabla.

¿Por qué comparar la extracción con y sin StructTree?

Porque muchos PDF tienen etiquetas incorrectas, generadas automáticamente o incompletas. Comparar ambos métodos ayuda a decidir cuál ofrece mejores resultados para tu caso de uso específico.

¿Puedo analizar solo páginas específicas de un documento largo?

Sí, puedes usar el campo 'Páginas' para definir rangos específicos (ej. 1-5, 10) y así acelerar el análisis sin procesar todo el documento.

¿Qué motor utiliza esta herramienta para la extracción?

Utiliza OpenDataLoader para procesar el documento y evaluar la calidad de la estructura semántica subyacente.

¿Qué tipo de resultados obtendré?

Obtendrás un informe en formato HTML que muestra lado a lado las diferencias en la detección de bloques de texto, listas y tablas, incluyendo el recuento de nodos semánticos.

Documentación de la API

Punto final de la solicitud

POST /es/api/tools/tagged-pdf-inspector

Parámetros de la solicitud

Nombre del parámetro Tipo Requerido Descripción
pdfFile file (Subida requerida) -
pages text No -
includeHeaderFooter checkbox No -

Los parámetros de tipo archivo necesitan ser subidos primero vía POST /upload/tagged-pdf-inspector para obtener filePath, luego pasar filePath al campo de archivo correspondiente.

Formato de respuesta

{
  "result": "
Processed HTML content
", "error": "Error message (optional)", "message": "Notification message (optional)", "metadata": { "key": "value" } }
HTML: HTML

Documentación de MCP

Agregue este herramienta a su configuración de servidor MCP:

{
  "mcpServers": {
    "elysiatools-tagged-pdf-inspector": {
      "name": "tagged-pdf-inspector",
      "description": "Compara la extraccion con y sin StructTree para ver si el PDF tiene estructura etiquetada util",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=tagged-pdf-inspector",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Puede encadenar múltiples herramientas, por ejemplo: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, máximo 20 herramientas.

Soporte para enlaces de archivos URL o codificación Base64 para parámetros de archivo.

Si encuentra algún problema, por favor, póngase en contacto con nosotros en [email protected]