Points clés
- Catégorie
- Développement et Web
- Types d’entrée
- file, checkbox, text, select
- Type de sortie
- html
- Couverture des échantillons
- 4
- API disponible
- Yes
Vue d’ensemble
L'Explorateur de structure JSON PDF est un outil d'analyse conçu pour extraire et visualiser la couche sémantique de vos documents. En convertissant votre fichier PDF au format JSON OpenDataLoader, il génère une vue interactive permettant d'inspecter les titres, paragraphes, tableaux, listes et boîtes de délimitation (bounding boxes). C'est la solution idéale pour vérifier la qualité du parsing, déboguer la hiérarchie des données et comprendre précisément comment un analyseur interprète la structure de votre document.
Quand l’utiliser
- •Pour déboguer et vérifier la qualité de l'extraction des données d'un fichier PDF avant de l'intégrer dans un pipeline de traitement automatisé.
- •Lors de l'analyse de la hiérarchie sémantique d'un document complexe pour s'assurer que les titres, paragraphes et listes sont correctement identifiés.
- •Pour inspecter visuellement les tableaux et leurs boîtes de délimitation afin de valider la précision de la reconnaissance structurelle.
Comment ça marche
- •Importez votre fichier PDF dans l'outil et spécifiez éventuellement les pages à analyser (par exemple : 1,3,5-7).
- •Configurez les options d'extraction, telles que l'utilisation de l'arbre de structure, l'assainissement des données sensibles ou le filtrage par type de nœud (titres, tableaux, listes).
- •L'outil traite le document et génère une structure JSON OpenDataLoader en arrière-plan.
- •Explorez le résultat via une interface HTML interactive affichant les nœuds sémantiques, les métadonnées des pages et les boîtes de délimitation.
Cas d’usage
Exemples
1. Vérification de l'extraction d'un tableau financier
Ingénieur Data- Contexte
- Un ingénieur doit s'assurer que le parseur PDF identifie correctement les tableaux dans les rapports annuels.
- Problème
- Les tableaux complexes sont souvent mal interprétés ou fusionnés avec le texte environnant.
- Comment l’utiliser
- Uploadez le rapport PDF, définissez le 'Filtre de nœuds' sur 'Tableaux seulement' et indiquez la page contenant les données financières.
- Configuration d’exemple
-
Filtre de nœuds : table | Pages : 12 - Résultat
- L'explorateur affiche uniquement les nœuds de type tableau de la page 12, permettant de valider instantanément les boîtes de délimitation et la structure des cellules.
2. Débogage de la hiérarchie des titres d'un manuel
Développeur Backend- Contexte
- Un développeur crée un pipeline RAG (Retrieval-Augmented Generation) qui dépend de la bonne identification des sections d'un manuel technique.
- Problème
- Certains sous-titres sont reconnus comme des paragraphes normaux, ce qui fausse la segmentation du texte.
- Comment l’utiliser
- Chargez le manuel PDF, activez 'Utiliser l'arbre de structure' et sélectionnez le filtre 'Titres seulement'.
- Configuration d’exemple
-
Utiliser l'arbre de structure : coché | Filtre de nœuds : heading - Résultat
- L'outil génère une vue listant tous les niveaux de titres (H1, H2, etc.), facilitant l'identification des erreurs de parsing sémantique.
Tester avec des échantillons
json, pdf, fileHubs associés
FAQ
Quels types d'éléments puis-je explorer avec cet outil ?
Vous pouvez explorer les titres, les paragraphes, les listes, les tableaux, ainsi que les métadonnées de page et les boîtes de délimitation (bounding boxes).
Puis-je filtrer les résultats pour ne voir que les tableaux ?
Oui, l'option 'Filtre de nœuds' vous permet d'isoler spécifiquement les tableaux, les titres ou les listes pour une inspection ciblée.
Est-il possible d'analyser seulement certaines pages du PDF ?
Absolument. Vous pouvez utiliser le champ 'Pages' pour définir des pages spécifiques ou des plages de pages (par exemple : 1, 3, 5-7).
À quoi sert l'option 'Assainir les données sensibles' ?
Cette option permet de masquer ou de nettoyer les informations potentiellement confidentielles lors de la génération de la vue d'exploration JSON.
Quel est le format de sortie de cet outil ?
L'outil génère un rapport interactif au format HTML qui présente visuellement la structure JSON OpenDataLoader extraite de votre PDF.