Explorateur de structure JSON PDF

Extrait la structure JSON OpenDataLoader dun PDF et affiche titres, paragraphes, tableaux, listes et bounding boxes

Apres le chargement dun PDF, loutil genere le JSON OpenDataLoader puis affiche les titres, paragraphes, listes, tableaux, pages et bounding boxes dans une vue dexploration. Cela aide a verifier la qualite du parsing et la couche semantique.

Exemples de résultats

1 Exemples

Explorer la structure semantique dun PDF

Le sample reel montre 20 noeuds semantiques sans lire le JSON brut.

Explorer report showing 20 semantic nodes from brand-guidelines-pdf-example1.pdf with page metadata, node counts, and JSON preview.
Voir paramètres d'entrée
{ "pdfFile": "/public/samples/pdf/brand-guidelines-pdf-example1.pdf", "useStructTree": true, "sanitizeSensitiveData": false, "pages": "", "nodeFilter": "all", "searchTerm": "" }

Click to upload file or drag and drop file here

Maximum file size: 10MB Supported formats: application/pdf

Points clés

Catégorie
Développement et Web
Types d’entrée
file, checkbox, text, select
Type de sortie
html
Couverture des échantillons
4
API disponible
Yes

Vue d’ensemble

L'Explorateur de structure JSON PDF est un outil d'analyse conçu pour extraire et visualiser la couche sémantique de vos documents. En convertissant votre fichier PDF au format JSON OpenDataLoader, il génère une vue interactive permettant d'inspecter les titres, paragraphes, tableaux, listes et boîtes de délimitation (bounding boxes). C'est la solution idéale pour vérifier la qualité du parsing, déboguer la hiérarchie des données et comprendre précisément comment un analyseur interprète la structure de votre document.

Quand l’utiliser

  • Pour déboguer et vérifier la qualité de l'extraction des données d'un fichier PDF avant de l'intégrer dans un pipeline de traitement automatisé.
  • Lors de l'analyse de la hiérarchie sémantique d'un document complexe pour s'assurer que les titres, paragraphes et listes sont correctement identifiés.
  • Pour inspecter visuellement les tableaux et leurs boîtes de délimitation afin de valider la précision de la reconnaissance structurelle.

Comment ça marche

  • Importez votre fichier PDF dans l'outil et spécifiez éventuellement les pages à analyser (par exemple : 1,3,5-7).
  • Configurez les options d'extraction, telles que l'utilisation de l'arbre de structure, l'assainissement des données sensibles ou le filtrage par type de nœud (titres, tableaux, listes).
  • L'outil traite le document et génère une structure JSON OpenDataLoader en arrière-plan.
  • Explorez le résultat via une interface HTML interactive affichant les nœuds sémantiques, les métadonnées des pages et les boîtes de délimitation.

Cas d’usage

Audit de la qualité de conversion PDF vers JSON pour les développeurs intégrant des solutions d'extraction de données.
Vérification de la structure des tableaux financiers ou des rapports de données avant leur traitement automatisé.
Analyse de la hiérarchie des titres et des listes dans des documents juridiques ou des manuels techniques.

Exemples

1. Vérification de l'extraction d'un tableau financier

Ingénieur Data
Contexte
Un ingénieur doit s'assurer que le parseur PDF identifie correctement les tableaux dans les rapports annuels.
Problème
Les tableaux complexes sont souvent mal interprétés ou fusionnés avec le texte environnant.
Comment l’utiliser
Uploadez le rapport PDF, définissez le 'Filtre de nœuds' sur 'Tableaux seulement' et indiquez la page contenant les données financières.
Configuration d’exemple
Filtre de nœuds : table | Pages : 12
Résultat
L'explorateur affiche uniquement les nœuds de type tableau de la page 12, permettant de valider instantanément les boîtes de délimitation et la structure des cellules.

2. Débogage de la hiérarchie des titres d'un manuel

Développeur Backend
Contexte
Un développeur crée un pipeline RAG (Retrieval-Augmented Generation) qui dépend de la bonne identification des sections d'un manuel technique.
Problème
Certains sous-titres sont reconnus comme des paragraphes normaux, ce qui fausse la segmentation du texte.
Comment l’utiliser
Chargez le manuel PDF, activez 'Utiliser l'arbre de structure' et sélectionnez le filtre 'Titres seulement'.
Configuration d’exemple
Utiliser l'arbre de structure : coché | Filtre de nœuds : heading
Résultat
L'outil génère une vue listant tous les niveaux de titres (H1, H2, etc.), facilitant l'identification des erreurs de parsing sémantique.

Tester avec des échantillons

json, pdf, file

Hubs associés

FAQ

Quels types d'éléments puis-je explorer avec cet outil ?

Vous pouvez explorer les titres, les paragraphes, les listes, les tableaux, ainsi que les métadonnées de page et les boîtes de délimitation (bounding boxes).

Puis-je filtrer les résultats pour ne voir que les tableaux ?

Oui, l'option 'Filtre de nœuds' vous permet d'isoler spécifiquement les tableaux, les titres ou les listes pour une inspection ciblée.

Est-il possible d'analyser seulement certaines pages du PDF ?

Absolument. Vous pouvez utiliser le champ 'Pages' pour définir des pages spécifiques ou des plages de pages (par exemple : 1, 3, 5-7).

À quoi sert l'option 'Assainir les données sensibles' ?

Cette option permet de masquer ou de nettoyer les informations potentiellement confidentielles lors de la génération de la vue d'exploration JSON.

Quel est le format de sortie de cet outil ?

L'outil génère un rapport interactif au format HTML qui présente visuellement la structure JSON OpenDataLoader extraite de votre PDF.

Documentation de l'API

Point de terminaison de la requête

POST /fr/api/tools/pdf-to-json-structure-explorer

Paramètres de la requête

Nom du paramètre Type Requis Description
pdfFile file (Téléchargement requis) Oui -
useStructTree checkbox Non -
sanitizeSensitiveData checkbox Non -
pages text Non -
nodeFilter select Non -
searchTerm text Non -

Les paramètres de type fichier doivent être téléchargés d'abord via POST /upload/pdf-to-json-structure-explorer pour obtenir filePath, puis filePath doit être passé au champ de fichier correspondant.

Format de réponse

{
  "result": "
Processed HTML content
", "error": "Error message (optional)", "message": "Notification message (optional)", "metadata": { "key": "value" } }
HTML: HTML

Documentation de MCP

Ajoutez cet outil à votre configuration de serveur MCP:

{
  "mcpServers": {
    "elysiatools-pdf-to-json-structure-explorer": {
      "name": "pdf-to-json-structure-explorer",
      "description": "Extrait la structure JSON OpenDataLoader dun PDF et affiche titres, paragraphes, tableaux, listes et bounding boxes",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=pdf-to-json-structure-explorer",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Vous pouvez chaîner plusieurs outils, par ex.: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, max 20 outils.

Prend en charge les liens de fichiers URL ou la codification Base64 pour les paramètres de fichier.

Si vous rencontrez des problèmes, veuillez nous contacter à [email protected]