Debogueur dordre de lecture PDF

Compare lordre brut dun PDF et XY-Cut++ pour reperer les problemes de lecture sur des mises en page complexes

Chargez un PDF et loutil executera OpenDataLoader avec readingOrder=off puis readingOrder=xycut afin de produire une comparaison page par page. Cest utile pour les rapports multi-colonnes, brochures et mises en page complexes.

Exemples de résultats

1 Exemples

Deboguer lordre de lecture dun PDF

Le test reel a compare 2 pages et na trouve aucune difference entre XY-Cut++ et lordre brut.

Reading order comparison report for 2 extracted pages with 0 changed pages between raw draw order and XY-Cut++.
Voir paramètres d'entrée
{ "pdfFile": "/public/samples/pdf/ebook-navigation-example1.pdf", "useStructTree": false, "includeHeaderFooter": false, "pages": "1-4" }

Click to upload file or drag and drop file here

Maximum file size: 10MB Supported formats: application/pdf

Points clés

Catégorie
Développement et Web
Types d’entrée
file, checkbox, text
Type de sortie
html
Couverture des échantillons
4
API disponible
Yes

Vue d’ensemble

Ce débogueur compare l'ordre de tracé brut d'un PDF avec l'algorithme XY-Cut++ pour identifier les erreurs d'extraction de texte. Il génère un rapport HTML détaillé permettant de visualiser les différences de flux de lecture sur les mises en page complexes comme les articles scientifiques ou les rapports multi-colonnes.

Quand l’utiliser

  • Lors de l'extraction de texte de documents PDF comportant plusieurs colonnes ou des encadrés.
  • Pour vérifier si l'activation de l'algorithme XY-Cut++ améliore la cohérence du flux de lecture.
  • Avant d'automatiser le traitement de documents complexes pour s'assurer que le texte est lu dans le bon ordre.

Comment ça marche

  • Téléchargez votre fichier PDF et sélectionnez les pages spécifiques à analyser.
  • L'outil traite le document deux fois : une fois sans ordre de lecture et une fois avec XY-Cut++.
  • Il compare les résultats textuels page par page pour détecter les divergences structurelles.
  • Un rapport HTML est généré, mettant en évidence les zones où l'ordre de lecture diffère.

Cas d’usage

Analyse de rapports financiers multi-colonnes pour éviter le mélange des données entre les sections.
Vérification de l'ordre de lecture des articles de recherche scientifique contenant des graphiques et des notes latérales.
Audit de brochures marketing complexes pour garantir une extraction de texte fluide pour les outils de traduction.

Exemples

1. Analyse d'un rapport annuel multi-colonnes

Analyste de données
Contexte
Un analyste doit extraire le texte d'un rapport financier structuré en deux colonnes.
Problème
L'extraction standard mélange les lignes de la colonne de gauche avec celles de la colonne de droite.
Comment l’utiliser
Charger le PDF, cocher 'Inclure en-têtes et pieds', et lancer l'analyse sur les pages 1 à 10.
Résultat
Le rapport montre que XY-Cut++ sépare correctement les colonnes, validant son utilisation pour l'automatisation.

2. Débogage d'une brochure publicitaire

Développeur
Contexte
Une brochure contient du texte superposé à des images et des blocs de texte non linéaires.
Problème
L'ordre de lecture par défaut rend le texte incohérent pour le moteur de traitement de texte.
Comment l’utiliser
Téléverser le fichier et activer 'Utiliser l'arbre de structure' pour comparer avec l'ordre brut.
Résultat
Identification visuelle des blocs de texte qui nécessitent un ajustement de l'algorithme de segmentation.

Tester avec des échantillons

pdf, file

Hubs associés

FAQ

Qu'est-ce que l'algorithme XY-Cut++ ?

C'est une méthode de segmentation récursive qui analyse la mise en page pour ordonner le texte logiquement.

Pourquoi l'ordre de lecture brut est-il parfois incorrect ?

Les PDF enregistrent souvent le texte selon l'ordre de création des objets, pas selon leur position visuelle.

Puis-je analyser seulement certaines pages ?

Oui, vous pouvez spécifier des numéros de pages ou des plages (ex: 1, 3-5) dans les options.

L'outil modifie-t-il mon fichier PDF original ?

Non, il analyse le contenu et génère un rapport de comparaison séparé sans altérer le fichier source.

À quoi sert l'option 'Arbre de structure' ?

Elle permet d'utiliser les balises internes du PDF, si elles existent, pour guider l'ordre de lecture.

Documentation de l'API

Point de terminaison de la requête

POST /fr/api/tools/pdf-reading-order-debugger

Paramètres de la requête

Nom du paramètre Type Requis Description
pdfFile file (Téléchargement requis) Oui -
useStructTree checkbox Non -
includeHeaderFooter checkbox Non -
pages text Non -

Les paramètres de type fichier doivent être téléchargés d'abord via POST /upload/pdf-reading-order-debugger pour obtenir filePath, puis filePath doit être passé au champ de fichier correspondant.

Format de réponse

{
  "result": "
Processed HTML content
", "error": "Error message (optional)", "message": "Notification message (optional)", "metadata": { "key": "value" } }
HTML: HTML

Documentation de MCP

Ajoutez cet outil à votre configuration de serveur MCP:

{
  "mcpServers": {
    "elysiatools-pdf-reading-order-debugger": {
      "name": "pdf-reading-order-debugger",
      "description": "Compare lordre brut dun PDF et XY-Cut++ pour reperer les problemes de lecture sur des mises en page complexes",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=pdf-reading-order-debugger",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Vous pouvez chaîner plusieurs outils, par ex.: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, max 20 outils.

Prend en charge les liens de fichiers URL ou la codification Base64 pour les paramètres de fichier.

Si vous rencontrez des problèmes, veuillez nous contacter à [email protected]