Points clés
- Catégorie
- Développement et Web
- Types d’entrée
- file, checkbox, text
- Type de sortie
- html
- Couverture des échantillons
- 4
- API disponible
- Yes
Vue d’ensemble
Ce débogueur compare l'ordre de tracé brut d'un PDF avec l'algorithme XY-Cut++ pour identifier les erreurs d'extraction de texte. Il génère un rapport HTML détaillé permettant de visualiser les différences de flux de lecture sur les mises en page complexes comme les articles scientifiques ou les rapports multi-colonnes.
Quand l’utiliser
- •Lors de l'extraction de texte de documents PDF comportant plusieurs colonnes ou des encadrés.
- •Pour vérifier si l'activation de l'algorithme XY-Cut++ améliore la cohérence du flux de lecture.
- •Avant d'automatiser le traitement de documents complexes pour s'assurer que le texte est lu dans le bon ordre.
Comment ça marche
- •Téléchargez votre fichier PDF et sélectionnez les pages spécifiques à analyser.
- •L'outil traite le document deux fois : une fois sans ordre de lecture et une fois avec XY-Cut++.
- •Il compare les résultats textuels page par page pour détecter les divergences structurelles.
- •Un rapport HTML est généré, mettant en évidence les zones où l'ordre de lecture diffère.
Cas d’usage
Exemples
1. Analyse d'un rapport annuel multi-colonnes
Analyste de données- Contexte
- Un analyste doit extraire le texte d'un rapport financier structuré en deux colonnes.
- Problème
- L'extraction standard mélange les lignes de la colonne de gauche avec celles de la colonne de droite.
- Comment l’utiliser
- Charger le PDF, cocher 'Inclure en-têtes et pieds', et lancer l'analyse sur les pages 1 à 10.
- Résultat
- Le rapport montre que XY-Cut++ sépare correctement les colonnes, validant son utilisation pour l'automatisation.
2. Débogage d'une brochure publicitaire
Développeur- Contexte
- Une brochure contient du texte superposé à des images et des blocs de texte non linéaires.
- Problème
- L'ordre de lecture par défaut rend le texte incohérent pour le moteur de traitement de texte.
- Comment l’utiliser
- Téléverser le fichier et activer 'Utiliser l'arbre de structure' pour comparer avec l'ordre brut.
- Résultat
- Identification visuelle des blocs de texte qui nécessitent un ajustement de l'algorithme de segmentation.
Tester avec des échantillons
pdf, fileHubs associés
FAQ
Qu'est-ce que l'algorithme XY-Cut++ ?
C'est une méthode de segmentation récursive qui analyse la mise en page pour ordonner le texte logiquement.
Pourquoi l'ordre de lecture brut est-il parfois incorrect ?
Les PDF enregistrent souvent le texte selon l'ordre de création des objets, pas selon leur position visuelle.
Puis-je analyser seulement certaines pages ?
Oui, vous pouvez spécifier des numéros de pages ou des plages (ex: 1, 3-5) dans les options.
L'outil modifie-t-il mon fichier PDF original ?
Non, il analyse le contenu et génère un rapport de comparaison séparé sans altérer le fichier source.
À quoi sert l'option 'Arbre de structure' ?
Elle permet d'utiliser les balises internes du PDF, si elles existent, pour guider l'ordre de lecture.