Inspecteur de PDF balise

Compare lextraction avec et sans StructTree pour voir si le PDF contient une structure balisee utile

Apres le chargement dun PDF, loutil execute OpenDataLoader avec useStructTree=true puis useStructTree=false, et compare les titres, listes, tableaux et paragraphes. Cela aide a savoir si la structure balisee du PDF merite detre exploitee.

Exemples de résultats

1 Exemples

Verifier si un PDF contient une structure taggee utile

Le sample reel a produit 20 contre 22 noeuds semantiques avec des differences sur certains titres.

Real sample report comparing StructTree and plain extraction; this sample produced 20 vs 22 semantic nodes and showed heading-text differences.
Voir paramètres d'entrée
{ "pdfFile": "/public/samples/pdf/brand-guidelines-pdf-example1.pdf", "pages": "", "includeHeaderFooter": false }

Click to upload file or drag and drop file here

Maximum file size: 10MB Supported formats: application/pdf

Points clés

Catégorie
Développement et Web
Types d’entrée
file, text, checkbox
Type de sortie
html
Couverture des échantillons
4
API disponible
Yes

Vue d’ensemble

L'Inspecteur de PDF balisé est un outil d'analyse conçu pour comparer l'extraction de données d'un document PDF avec et sans l'utilisation de l'arbre de structure (StructTree). En mettant en évidence les différences au niveau des titres, des listes, des tableaux et des paragraphes, il vous permet de déterminer rapidement si la structure sémantique de votre fichier est suffisamment riche pour être exploitée dans des processus d'accessibilité, de migration de contenu ou d'ingestion RAG.

Quand l’utiliser

  • Pour vérifier si un document PDF contient des balises sémantiques (Tagged PDF) exploitables avant de l'intégrer dans une base de données.
  • Lors de l'évaluation de la qualité d'exportation d'un logiciel de création de documents vers le format PDF.
  • Pour diagnostiquer des problèmes d'extraction de texte, de tableaux ou de listes dans des pipelines de traitement de documents.

Comment ça marche

  • Importez votre fichier PDF dans l'outil via le champ principal.
  • Spécifiez éventuellement les pages à analyser (par exemple, 1,3,5-7) et choisissez d'inclure ou non les en-têtes et pieds de page.
  • L'outil exécute deux extractions parallèles : l'une avec le support StructTree activé, l'autre sans.
  • Consultez le rapport HTML généré pour comparer le nombre de nœuds sémantiques et identifier les différences de structure.

Cas d’usage

Audit d'accessibilité numérique pour s'assurer que les documents PDF publics respectent les normes de structuration.
Préparation de documents pour des systèmes d'IA (RAG) nécessitant une compréhension précise de la hiérarchie du texte.
Développement et débogage de scripts d'extraction de données automatisée à partir de factures ou de rapports PDF.

Exemples

1. Vérification de la structure d'une charte graphique

Développeur Data
Contexte
Une entreprise souhaite extraire automatiquement les règles de sa charte graphique au format PDF pour alimenter un chatbot interne.
Problème
Il faut s'assurer que les titres et les listes du PDF sont correctement reconnus pour un découpage sémantique optimal.
Comment l’utiliser
Uploadez le fichier `brand-guidelines.pdf`, laissez le champ Pages vide et décochez l'inclusion des en-têtes.
Configuration d’exemple
Pages: (vide), Inclure en-têtes et pieds: false
Résultat
Le rapport HTML montre 20 nœuds sémantiques avec StructTree contre 22 sans, révélant des différences utiles dans la détection des titres, confirmant que le PDF est bien balisé.

2. Analyse ciblée d'un rapport financier

Analyste de données
Contexte
Un analyste doit extraire des tableaux complexes situés au milieu d'un long rapport annuel de 100 pages.
Problème
L'extraction classique fusionne les colonnes. L'analyste veut tester si la structure balisée du PDF résout ce problème sur les pages concernées.
Comment l’utiliser
Chargez le rapport PDF, spécifiez les pages contenant les tableaux (ex: 45-47) et lancez l'inspection.
Configuration d’exemple
Pages: 45-47, Inclure en-têtes et pieds: false
Résultat
L'outil compare les deux méthodes sur les pages 45 à 47. L'extraction avec StructTree identifie correctement les balises de tableau, prouvant qu'une extraction basée sur les balises est préférable pour ce document.

Tester avec des échantillons

pdf, file

Hubs associés

FAQ

Qu'est-ce qu'un PDF balisé (Tagged PDF) ?

C'est un PDF qui contient une structure sémantique cachée (StructTree) définissant les éléments de lecture comme les titres, les paragraphes et les tableaux, facilitant ainsi l'accessibilité et l'extraction.

Quels éléments sont comparés par l'outil ?

L'outil compare principalement la reconnaissance des titres, des listes, des tableaux et des blocs de paragraphes entre les deux méthodes d'extraction.

Puis-je analyser seulement une partie de mon PDF ?

Oui, vous pouvez utiliser le champ 'Pages' pour spécifier des pages précises ou des plages de pages (ex: 1-5, 8) afin de cibler l'analyse.

Que signifie l'option 'Inclure en-têtes et pieds' ?

Cette option permet d'intégrer ou d'ignorer les éléments répétitifs situés en haut et en bas des pages lors de l'analyse de la structure du document.

Pourquoi utiliser cet outil pour le RAG (Retrieval-Augmented Generation) ?

Une bonne structure balisée améliore considérablement la qualité du découpage (chunking) du texte, ce qui rend les réponses de l'IA plus précises et contextuelles.

Documentation de l'API

Point de terminaison de la requête

POST /fr/api/tools/tagged-pdf-inspector

Paramètres de la requête

Nom du paramètre Type Requis Description
pdfFile file (Téléchargement requis) Oui -
pages text Non -
includeHeaderFooter checkbox Non -

Les paramètres de type fichier doivent être téléchargés d'abord via POST /upload/tagged-pdf-inspector pour obtenir filePath, puis filePath doit être passé au champ de fichier correspondant.

Format de réponse

{
  "result": "
Processed HTML content
", "error": "Error message (optional)", "message": "Notification message (optional)", "metadata": { "key": "value" } }
HTML: HTML

Documentation de MCP

Ajoutez cet outil à votre configuration de serveur MCP:

{
  "mcpServers": {
    "elysiatools-tagged-pdf-inspector": {
      "name": "tagged-pdf-inspector",
      "description": "Compare lextraction avec et sans StructTree pour voir si le PDF contient une structure balisee utile",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=tagged-pdf-inspector",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Vous pouvez chaîner plusieurs outils, par ex.: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, max 20 outils.

Prend en charge les liens de fichiers URL ou la codification Base64 pour les paramètres de fichier.

Si vous rencontrez des problèmes, veuillez nous contacter à [email protected]