Elysia Tools

Navegación

Developer Tools

Depurador de orden de lectura PDF

Compara el orden bruto del PDF con XY-Cut++ para detectar problemas de lectura en layouts complejos

Detalles

Qué te ayuda a hacer esta herramienta

Sube un PDF y la herramienta ejecutara OpenDataLoader con readingOrder=off y readingOrder=xycut para producir una comparacion pagina por pagina. Es util para documentos multicolumna, folletos, informes y PDFs con maquetacion compleja.

Ejecución

Ejecutar esta herramienta

Completa el formulario, ejecuta la herramienta y revisa el resultado en un solo lugar.

Ejecuciones de ejemplo preparadas

Haz clic en un ejemplo para completar el formulario automáticamente. Los archivos aún deben subirse.

1 ejemplos

Depurar el orden de lectura de un PDF

La prueba real comparo 2 paginas y no encontro diferencias entre XY-Cut++ y el orden bruto.

<div>Reading order comparison report for 2 extracted pages with 0 changed pages between raw draw order and XY-Cut++.</div>

Entradas

Completa los campos necesarios y ejecuta la herramienta.

4 opciones

ArchivosSube los archivos fuente para este flujo.1

Archivo PDFfileObligatorio

Tipos admitidos: application/pdf

ContenidoPega o escribe los valores principales.1

PaginastextOpcional

InterruptoresActiva o desactiva comportamientos opcionales.2

Usar arbol estructuralcheckboxOpcionalActivado si está marcadoIncluir encabezado y piecheckboxOpcionalActivado si está marcado

Resultado

Listo para ejecutar

Al ejecutar la herramienta, aquí verás archivos, texto, datos estructurados o salida en streaming.

Ejecuciones de ejemplo preparadas

Haz clic en un ejemplo para completar el formulario automáticamente. Los archivos aún deben subirse.

1 ejemplos

Depurar el orden de lectura de un PDF

La prueba real comparo 2 paginas y no encontro diferencias entre XY-Cut++ y el orden bruto.

<div>Reading order comparison report for 2 extracted pages with 0 changed pages between raw draw order and XY-Cut++.</div>

Entradas

Completa los campos necesarios y ejecuta la herramienta.

4 opciones

ArchivosSube los archivos fuente para este flujo.1

Archivo PDFfileObligatorio

Tipos admitidos: application/pdf

ContenidoPega o escribe los valores principales.1

PaginastextOpcional

InterruptoresActiva o desactiva comportamientos opcionales.2

Usar arbol estructuralcheckboxOpcionalActivado si está marcadoIncluir encabezado y piecheckboxOpcionalActivado si está marcado

Resultado

Listo para ejecutar

Al ejecutar la herramienta, aquí verás archivos, texto, datos estructurados o salida en streaming.

Ejemplos

Ejemplos que encajan con esta herramienta

Relacionado

Continuar con herramientas y temas relacionados

PDF147

Raw49

Ordenar20

Guía de uso de la herramienta

Conoce cuándo usar esta herramienta, qué admite y cómo la aplican los usuarios.

Datos clave

Categoría: Developer Tools
Tipos de entrada: file, checkbox, text
Tipo de salida: html
Cobertura de ejemplos: 4
API disponible: Sí

Resumen

El Depurador de orden de lectura PDF permite comparar el flujo de extracción de texto estándar frente al algoritmo XY-Cut++ para identificar errores de maquetación. Esta herramienta genera un informe visual que ayuda a detectar si el contenido de documentos complejos, como informes de varias columnas, se está procesando en la secuencia correcta.

Cuándo usarlo

Al procesar documentos con múltiples columnas donde el texto se extrae de forma desordenada.

Para verificar si los encabezados y pies de página interfieren con el flujo principal de lectura.

Cuando se necesita validar la estructura lógica de un PDF antes de realizar una extracción de datos masiva.

Cómo funciona

1Sube el archivo PDF y especifica el rango de páginas que deseas analizar.
2El sistema procesa el documento dos veces: una con el orden de dibujo bruto y otra aplicando el algoritmo XY-Cut++.
3Se genera una comparación técnica que resalta las discrepancias en la secuencia del texto extraído.
4Revisa el informe HTML resultante para confirmar qué método de lectura preserva mejor la coherencia del contenido.

Casos de uso

Auditoría de extracción de datos en artículos científicos con maquetación de doble columna.
Validación de flujos de lectura en folletos publicitarios y revistas con diseño gráfico complejo.
Depuración de informes financieros donde las tablas y el texto lateral pueden confundir a los extractores estándar.

Ejemplos

1. Validación de informe anual corporativo

Analista de datos

Contexto

Un informe financiero tiene gráficos laterales y tres columnas de texto que se mezclan al extraer el contenido.

Problema

El extractor de texto estándar mezcla las notas al pie con el cuerpo del informe, rompiendo la lógica del documento.

Cómo usarlo

Sube el PDF, activa 'Incluir encabezado y pie' y selecciona las páginas de la sección financiera.

Resultado

El informe muestra que XY-Cut++ separa correctamente las columnas, evitando que el texto se entrelace de forma incoherente.

2. Depuración de artículo académico

Investigador

Contexto

Un PDF de una revista científica presenta un orden de lectura caótico al convertirlo a texto plano para un análisis bibliométrico.

Problema

Las referencias bibliográficas aparecen en medio de los párrafos de la primera columna debido al orden de dibujo del PDF.

Cómo usarlo

Carga el archivo y marca la opción 'Usar árbol estructural' para comparar la jerarquía interna con el método XY-Cut++.

Resultado

Preguntas frecuentes

¿Qué es XY-Cut++?

Es un algoritmo avanzado que analiza la geometría del PDF para reconstruir el orden de lectura humano en layouts complejos.

¿Por qué el texto de mi PDF aparece desordenado?

Los PDF suelen almacenar texto en el orden en que fue dibujado, no necesariamente en el orden lógico en que se lee.

¿Puedo analizar solo páginas específicas?

Sí, puedes definir rangos de páginas exactos, como '1, 3, 5-7', en el campo de configuración de páginas.

¿Para qué sirve la opción 'Usar árbol estructural'?

Permite aprovechar los metadatos de etiquetas internas del PDF para intentar mejorar la precisión del orden de lectura.

¿Qué formato tiene el resultado?

La herramienta genera un informe en formato HTML con una comparativa detallada página por página.

Visores de archivos45

Temas115

Etiquetas312

Imágenes, audio y video507

Herramientas de procesamiento, conversión y optimización de imágenes, audio y video

Matemáticas, fechas y finanzas448

Calculadoras, herramientas numéricas, lógica de fechas, estadística y finanzas

Diseño y color281

Herramientas de color, maquetación, gráficos, estilo visual y apoyo al diseño

Texto y redacción183

Herramientas de redacción, limpieza, formato, extracción y análisis de texto

Conversión y codificación160

Herramientas de conversión de formatos, archivos, unidades, archivos comprimidos y codificación

Desarrollo y Web150

Utilidades para desarrolladores, red, depuración web y automatización

Herramientas de codificacion y conversion de audio

Herramientas de conversion de formatos de imagen y exportacion animada

Herramientas de intercambio JSON y traduccion de formatos

Herramientas de conversion de espacios de color para web e impresion

Herramientas de conversión de texto, codificación y normalización

Se identifica que el árbol estructural es deficiente y que el algoritmo XY-Cut++ es la mejor opción para recuperar la secuencia original.

Document

Muestras PDF

Muestras PDF generadas por herramientas 2026-02-01 a 2026-02-10

Documentation

Ejemplos de Presentaciones Markdown

Mazos Markdown estilo Remark/Marp para probar la exportacion a PDF

Document

Muestras ICS del Planificador por Zona Horaria

Archivos ICS con la misma estructura devuelta por Time Zone Workflow Scheduler, incluyendo varios VEVENT de candidatos

Document

Muestras OFD

Muestras OFD para pruebas de analisis de documentos de diseno fijo GB/T 33190

Developer Tools

Analizador de PDF con formulas y graficos

Compara la extraccion local e hybrid de OpenDataLoader para identificar paginas que requieren ayuda de IA

Developer Tools

Eliminador de ruido de encabezado y pie PDF

Compara la extraccion con y sin encabezados/pies para detectar ruido repetido en el texto

Developer Tools

Inspector de PDF etiquetado

Compara la extraccion con y sin StructTree para ver si el PDF tiene estructura etiquetada util

Developer Tools

Explorador de estructura JSON desde PDF

Extrae la estructura JSON de OpenDataLoader desde un PDF y muestra encabezados, parrafos, tablas, listas y bounding boxes

Tema

Términos de servicio

Política de privacidad

Contacto

Depurador de orden de lectura PDF

Qué te ayuda a hacer esta herramienta

Ejecutar esta herramienta

Ejecuciones de ejemplo preparadas

Entradas

Resultado

Ejecuciones de ejemplo preparadas

Entradas

Resultado

Ejemplos que encajan con esta herramienta

Continuar con herramientas y temas relacionados

Conoce cuándo usar esta herramienta, qué admite y cómo la aplican los usuarios.

Datos clave

Resumen

Cuándo usarlo

Cómo funciona

Casos de uso

Ejemplos

1. Validación de informe anual corporativo

2. Depuración de artículo académico

Preguntas frecuentes

Muestras PDF

Ejemplos de Presentaciones Markdown

Muestras ICS del Planificador por Zona Horaria

Muestras OFD

Analizador de PDF con formulas y graficos

Eliminador de ruido de encabezado y pie PDF

Inspector de PDF etiquetado

Explorador de estructura JSON desde PDF

Herramientas de depuracion de extraccion PDF y revision de seguridad

Herramientas de conversion PDF y exportacion documental

Herramientas de ensamblado, maquetacion y proteccion PDF

Generadores de maquetacion y plantillas PDF imprimibles