Datos clave
- Categoría
- Desarrollo y Web
- Tipos de entrada
- file, checkbox, text
- Tipo de salida
- html
- Cobertura de muestras
- 4
- API disponible
- Yes
Resumen
El Depurador de orden de lectura PDF permite comparar el flujo de extracción de texto estándar frente al algoritmo XY-Cut++ para identificar errores de maquetación. Esta herramienta genera un informe visual que ayuda a detectar si el contenido de documentos complejos, como informes de varias columnas, se está procesando en la secuencia correcta.
Cuándo usarlo
- •Al procesar documentos con múltiples columnas donde el texto se extrae de forma desordenada.
- •Para verificar si los encabezados y pies de página interfieren con el flujo principal de lectura.
- •Cuando se necesita validar la estructura lógica de un PDF antes de realizar una extracción de datos masiva.
Cómo funciona
- •Sube el archivo PDF y especifica el rango de páginas que deseas analizar.
- •El sistema procesa el documento dos veces: una con el orden de dibujo bruto y otra aplicando el algoritmo XY-Cut++.
- •Se genera una comparación técnica que resalta las discrepancias en la secuencia del texto extraído.
- •Revisa el informe HTML resultante para confirmar qué método de lectura preserva mejor la coherencia del contenido.
Casos de uso
Ejemplos
1. Validación de informe anual corporativo
Analista de datos- Contexto
- Un informe financiero tiene gráficos laterales y tres columnas de texto que se mezclan al extraer el contenido.
- Problema
- El extractor de texto estándar mezcla las notas al pie con el cuerpo del informe, rompiendo la lógica del documento.
- Cómo usarlo
- Sube el PDF, activa 'Incluir encabezado y pie' y selecciona las páginas de la sección financiera.
- Resultado
- El informe muestra que XY-Cut++ separa correctamente las columnas, evitando que el texto se entrelace de forma incoherente.
2. Depuración de artículo académico
Investigador- Contexto
- Un PDF de una revista científica presenta un orden de lectura caótico al convertirlo a texto plano para un análisis bibliométrico.
- Problema
- Las referencias bibliográficas aparecen en medio de los párrafos de la primera columna debido al orden de dibujo del PDF.
- Cómo usarlo
- Carga el archivo y marca la opción 'Usar árbol estructural' para comparar la jerarquía interna con el método XY-Cut++.
- Resultado
- Se identifica que el árbol estructural es deficiente y que el algoritmo XY-Cut++ es la mejor opción para recuperar la secuencia original.
Probar con muestras
pdf, fileHubs relacionados
Preguntas frecuentes
¿Qué es XY-Cut++?
Es un algoritmo avanzado que analiza la geometría del PDF para reconstruir el orden de lectura humano en layouts complejos.
¿Por qué el texto de mi PDF aparece desordenado?
Los PDF suelen almacenar texto en el orden en que fue dibujado, no necesariamente en el orden lógico en que se lee.
¿Puedo analizar solo páginas específicas?
Sí, puedes definir rangos de páginas exactos, como '1, 3, 5-7', en el campo de configuración de páginas.
¿Para qué sirve la opción 'Usar árbol estructural'?
Permite aprovechar los metadatos de etiquetas internas del PDF para intentar mejorar la precisión del orden de lectura.
¿Qué formato tiene el resultado?
La herramienta genera un informe en formato HTML con una comparativa detallada página por página.