Depurador de orden de lectura PDF

Compara el orden bruto del PDF con XY-Cut++ para detectar problemas de lectura en layouts complejos

Sube un PDF y la herramienta ejecutara OpenDataLoader con readingOrder=off y readingOrder=xycut para producir una comparacion pagina por pagina. Es util para documentos multicolumna, folletos, informes y PDFs con maquetacion compleja.

Resultados de ejemplo

1 Ejemplos

Depurar el orden de lectura de un PDF

La prueba real comparo 2 paginas y no encontro diferencias entre XY-Cut++ y el orden bruto.

Reading order comparison report for 2 extracted pages with 0 changed pages between raw draw order and XY-Cut++.
Ver parámetros de entrada
{ "pdfFile": "/public/samples/pdf/ebook-navigation-example1.pdf", "useStructTree": false, "includeHeaderFooter": false, "pages": "1-4" }

Click to upload file or drag and drop file here

Maximum file size: 10MB Supported formats: application/pdf

Datos clave

Categoría
Desarrollo y Web
Tipos de entrada
file, checkbox, text
Tipo de salida
html
Cobertura de muestras
4
API disponible
Yes

Resumen

El Depurador de orden de lectura PDF permite comparar el flujo de extracción de texto estándar frente al algoritmo XY-Cut++ para identificar errores de maquetación. Esta herramienta genera un informe visual que ayuda a detectar si el contenido de documentos complejos, como informes de varias columnas, se está procesando en la secuencia correcta.

Cuándo usarlo

  • Al procesar documentos con múltiples columnas donde el texto se extrae de forma desordenada.
  • Para verificar si los encabezados y pies de página interfieren con el flujo principal de lectura.
  • Cuando se necesita validar la estructura lógica de un PDF antes de realizar una extracción de datos masiva.

Cómo funciona

  • Sube el archivo PDF y especifica el rango de páginas que deseas analizar.
  • El sistema procesa el documento dos veces: una con el orden de dibujo bruto y otra aplicando el algoritmo XY-Cut++.
  • Se genera una comparación técnica que resalta las discrepancias en la secuencia del texto extraído.
  • Revisa el informe HTML resultante para confirmar qué método de lectura preserva mejor la coherencia del contenido.

Casos de uso

Auditoría de extracción de datos en artículos científicos con maquetación de doble columna.
Validación de flujos de lectura en folletos publicitarios y revistas con diseño gráfico complejo.
Depuración de informes financieros donde las tablas y el texto lateral pueden confundir a los extractores estándar.

Ejemplos

1. Validación de informe anual corporativo

Analista de datos
Contexto
Un informe financiero tiene gráficos laterales y tres columnas de texto que se mezclan al extraer el contenido.
Problema
El extractor de texto estándar mezcla las notas al pie con el cuerpo del informe, rompiendo la lógica del documento.
Cómo usarlo
Sube el PDF, activa 'Incluir encabezado y pie' y selecciona las páginas de la sección financiera.
Resultado
El informe muestra que XY-Cut++ separa correctamente las columnas, evitando que el texto se entrelace de forma incoherente.

2. Depuración de artículo académico

Investigador
Contexto
Un PDF de una revista científica presenta un orden de lectura caótico al convertirlo a texto plano para un análisis bibliométrico.
Problema
Las referencias bibliográficas aparecen en medio de los párrafos de la primera columna debido al orden de dibujo del PDF.
Cómo usarlo
Carga el archivo y marca la opción 'Usar árbol estructural' para comparar la jerarquía interna con el método XY-Cut++.
Resultado
Se identifica que el árbol estructural es deficiente y que el algoritmo XY-Cut++ es la mejor opción para recuperar la secuencia original.

Probar con muestras

pdf, file

Hubs relacionados

Preguntas frecuentes

¿Qué es XY-Cut++?

Es un algoritmo avanzado que analiza la geometría del PDF para reconstruir el orden de lectura humano en layouts complejos.

¿Por qué el texto de mi PDF aparece desordenado?

Los PDF suelen almacenar texto en el orden en que fue dibujado, no necesariamente en el orden lógico en que se lee.

¿Puedo analizar solo páginas específicas?

Sí, puedes definir rangos de páginas exactos, como '1, 3, 5-7', en el campo de configuración de páginas.

¿Para qué sirve la opción 'Usar árbol estructural'?

Permite aprovechar los metadatos de etiquetas internas del PDF para intentar mejorar la precisión del orden de lectura.

¿Qué formato tiene el resultado?

La herramienta genera un informe en formato HTML con una comparativa detallada página por página.

Documentación de la API

Punto final de la solicitud

POST /es/api/tools/pdf-reading-order-debugger

Parámetros de la solicitud

Nombre del parámetro Tipo Requerido Descripción
pdfFile file (Subida requerida) -
useStructTree checkbox No -
includeHeaderFooter checkbox No -
pages text No -

Los parámetros de tipo archivo necesitan ser subidos primero vía POST /upload/pdf-reading-order-debugger para obtener filePath, luego pasar filePath al campo de archivo correspondiente.

Formato de respuesta

{
  "result": "
Processed HTML content
", "error": "Error message (optional)", "message": "Notification message (optional)", "metadata": { "key": "value" } }
HTML: HTML

Documentación de MCP

Agregue este herramienta a su configuración de servidor MCP:

{
  "mcpServers": {
    "elysiatools-pdf-reading-order-debugger": {
      "name": "pdf-reading-order-debugger",
      "description": "Compara el orden bruto del PDF con XY-Cut++ para detectar problemas de lectura en layouts complejos",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=pdf-reading-order-debugger",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Puede encadenar múltiples herramientas, por ejemplo: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, máximo 20 herramientas.

Soporte para enlaces de archivos URL o codificación Base64 para parámetros de archivo.

Si encuentra algún problema, por favor, póngase en contacto con nosotros en [email protected]