Points clés
- Catégorie
- Données et tableaux
- Types d’entrée
- file, select, text, checkbox
- Type de sortie
- file
- Couverture des échantillons
- 4
- API disponible
- Yes
Vue d’ensemble
Cet outil extrait les tableaux de vos documents PDF grâce à OpenDataLoader et les convertit en formats exploitables. Chargez votre fichier pour détecter automatiquement les structures tabulaires et exportez-les en JSON (avec métadonnées et boîtes de délimitation), en CSV aplati pour l'analyse, ou en HTML pour une visualisation directe.
Quand l’utiliser
- •Récupérer des données financières ou statistiques bloquées dans des rapports PDF pour les analyser dans un tableur.
- •Convertir des catalogues ou des factures PDF en fichiers JSON structurés pour les intégrer dans une base de données.
- •Extraire des tableaux spécifiques d'un long document de recherche en ciblant uniquement certaines pages.
Comment ça marche
- •Importez votre document PDF contenant les tableaux à extraire.
- •Sélectionnez le format d'exportation souhaité (JSON, CSV ou HTML) et précisez les pages à traiter si nécessaire.
- •Choisissez la méthode de détection (par défaut ou cluster) et activez l'arbre de structure pour les documents complexes.
- •Téléchargez le fichier généré contenant vos données tabulaires parfaitement extraites et formatées.
Cas d’usage
Exemples
1. Extraction d'un rapport financier en JSON
Analyste de données- Contexte
- Un analyste doit intégrer les tableaux d'un rapport annuel PDF dans une base de données NoSQL.
- Problème
- Les tableaux PDF sont difficiles à parser manuellement sans perdre les coordonnées et la structure des cellules.
- Comment l’utiliser
- Chargez le rapport PDF, sélectionnez le format d'export 'JSON', choisissez la méthode 'Cluster' et lancez l'extraction.
- Configuration d’exemple
-
Format: JSON, Méthode: Cluster - Résultat
- Un fichier JSON est généré, contenant les tableaux du rapport avec les numéros de page et les boîtes de délimitation (bbox) préservés.
2. Conversion de factures en CSV
Comptable- Contexte
- Un comptable reçoit des factures de plusieurs pages en PDF et doit importer les lignes de facturation dans Excel.
- Problème
- Copier-coller les tableaux depuis le PDF vers Excel décale souvent les colonnes et fusionne les cellules.
- Comment l’utiliser
- Importez la facture PDF, indiquez les pages contenant les tableaux (ex: '2-3') et choisissez le format d'export 'CSV'.
- Configuration d’exemple
-
Format: CSV, Pages: 2-3 - Résultat
- Les données tabulaires sont extraites et aplaties dans un fichier CSV propre, prêt à être ouvert et analysé dans Excel.
Tester avec des échantillons
json, csv, htmlHubs associés
FAQ
Quels formats d'exportation sont pris en charge ?
Vous pouvez exporter les tableaux extraits en JSON structuré, en CSV plat ou en HTML.
Puis-je extraire des tableaux de pages spécifiques uniquement ?
Oui, le champ 'Pages' vous permet de définir des pages précises (par exemple, 1,3,5-7) pour limiter l'extraction.
Quelle est la différence entre les formats JSON et CSV ici ?
Le format JSON conserve la structure complète, la page et les coordonnées (bbox) des cellules, tandis que le CSV aplatit les données pour une lecture simple en lignes et colonnes.
À quoi sert l'option 'Utiliser l'arbre de structure' ?
Cette option aide à mieux identifier les tableaux dans les PDF balisés en s'appuyant sur la structure sémantique interne du document.
Qu'est-ce que la méthode de détection 'Cluster' ?
C'est un algorithme alternatif qui regroupe les éléments textuels proches pour reconstituer les tableaux, particulièrement utile quand la méthode par défaut échoue.