Points clés
- Catégorie
- Développement et Web
- Types d’entrée
- file, text, checkbox
- Type de sortie
- html
- Couverture des échantillons
- 4
- API disponible
- Yes
Vue d’ensemble
L'Inspecteur de PDF balisé est un outil d'analyse conçu pour comparer l'extraction de données d'un document PDF avec et sans l'utilisation de l'arbre de structure (StructTree). En mettant en évidence les différences au niveau des titres, des listes, des tableaux et des paragraphes, il vous permet de déterminer rapidement si la structure sémantique de votre fichier est suffisamment riche pour être exploitée dans des processus d'accessibilité, de migration de contenu ou d'ingestion RAG.
Quand l’utiliser
- •Pour vérifier si un document PDF contient des balises sémantiques (Tagged PDF) exploitables avant de l'intégrer dans une base de données.
- •Lors de l'évaluation de la qualité d'exportation d'un logiciel de création de documents vers le format PDF.
- •Pour diagnostiquer des problèmes d'extraction de texte, de tableaux ou de listes dans des pipelines de traitement de documents.
Comment ça marche
- •Importez votre fichier PDF dans l'outil via le champ principal.
- •Spécifiez éventuellement les pages à analyser (par exemple, 1,3,5-7) et choisissez d'inclure ou non les en-têtes et pieds de page.
- •L'outil exécute deux extractions parallèles : l'une avec le support StructTree activé, l'autre sans.
- •Consultez le rapport HTML généré pour comparer le nombre de nœuds sémantiques et identifier les différences de structure.
Cas d’usage
Exemples
1. Vérification de la structure d'une charte graphique
Développeur Data- Contexte
- Une entreprise souhaite extraire automatiquement les règles de sa charte graphique au format PDF pour alimenter un chatbot interne.
- Problème
- Il faut s'assurer que les titres et les listes du PDF sont correctement reconnus pour un découpage sémantique optimal.
- Comment l’utiliser
- Uploadez le fichier `brand-guidelines.pdf`, laissez le champ Pages vide et décochez l'inclusion des en-têtes.
- Configuration d’exemple
-
Pages: (vide), Inclure en-têtes et pieds: false - Résultat
- Le rapport HTML montre 20 nœuds sémantiques avec StructTree contre 22 sans, révélant des différences utiles dans la détection des titres, confirmant que le PDF est bien balisé.
2. Analyse ciblée d'un rapport financier
Analyste de données- Contexte
- Un analyste doit extraire des tableaux complexes situés au milieu d'un long rapport annuel de 100 pages.
- Problème
- L'extraction classique fusionne les colonnes. L'analyste veut tester si la structure balisée du PDF résout ce problème sur les pages concernées.
- Comment l’utiliser
- Chargez le rapport PDF, spécifiez les pages contenant les tableaux (ex: 45-47) et lancez l'inspection.
- Configuration d’exemple
-
Pages: 45-47, Inclure en-têtes et pieds: false - Résultat
- L'outil compare les deux méthodes sur les pages 45 à 47. L'extraction avec StructTree identifie correctement les balises de tableau, prouvant qu'une extraction basée sur les balises est préférable pour ce document.
Tester avec des échantillons
pdf, fileHubs associés
FAQ
Qu'est-ce qu'un PDF balisé (Tagged PDF) ?
C'est un PDF qui contient une structure sémantique cachée (StructTree) définissant les éléments de lecture comme les titres, les paragraphes et les tableaux, facilitant ainsi l'accessibilité et l'extraction.
Quels éléments sont comparés par l'outil ?
L'outil compare principalement la reconnaissance des titres, des listes, des tableaux et des blocs de paragraphes entre les deux méthodes d'extraction.
Puis-je analyser seulement une partie de mon PDF ?
Oui, vous pouvez utiliser le champ 'Pages' pour spécifier des pages précises ou des plages de pages (ex: 1-5, 8) afin de cibler l'analyse.
Que signifie l'option 'Inclure en-têtes et pieds' ?
Cette option permet d'intégrer ou d'ignorer les éléments répétitifs situés en haut et en bas des pages lors de l'analyse de la structure du document.
Pourquoi utiliser cet outil pour le RAG (Retrieval-Augmented Generation) ?
Une bonne structure balisée améliore considérablement la qualité du découpage (chunking) du texte, ce qui rend les réponses de l'IA plus précises et contextuelles.