Extracteur de tableaux PDF vers CSV/JSON

Extrait des tableaux PDF avec OpenDataLoader et les exporte en JSON, CSV ou HTML

Apres le chargement dun PDF, loutil utilise OpenDataLoader pour detecter les tableaux semantiques puis les exporte dans le format choisi. JSON conserve page, bbox et structure ; CSV aplatit les cellules ; HTML produit des tableaux visuels.

Exemples de résultats

1 Exemples

Extraire des tableaux dun rapport

Le sample reel a extrait 2 tableaux et les a enregistres en JSON structure.

pdf-table-extractor-to-csv-json-example1.json Voir fichier
Voir paramètres d'entrée
{ "pdfFile": "/public/samples/pdf/financial-report-example1.pdf", "exportFormat": "json", "tableMethod": "cluster", "pages": "", "useStructTree": false }

Click to upload file or drag and drop file here

Maximum file size: 10MB Supported formats: application/pdf

Points clés

Catégorie
Données et tableaux
Types d’entrée
file, select, text, checkbox
Type de sortie
file
Couverture des échantillons
4
API disponible
Yes

Vue d’ensemble

Cet outil extrait les tableaux de vos documents PDF grâce à OpenDataLoader et les convertit en formats exploitables. Chargez votre fichier pour détecter automatiquement les structures tabulaires et exportez-les en JSON (avec métadonnées et boîtes de délimitation), en CSV aplati pour l'analyse, ou en HTML pour une visualisation directe.

Quand l’utiliser

  • Récupérer des données financières ou statistiques bloquées dans des rapports PDF pour les analyser dans un tableur.
  • Convertir des catalogues ou des factures PDF en fichiers JSON structurés pour les intégrer dans une base de données.
  • Extraire des tableaux spécifiques d'un long document de recherche en ciblant uniquement certaines pages.

Comment ça marche

  • Importez votre document PDF contenant les tableaux à extraire.
  • Sélectionnez le format d'exportation souhaité (JSON, CSV ou HTML) et précisez les pages à traiter si nécessaire.
  • Choisissez la méthode de détection (par défaut ou cluster) et activez l'arbre de structure pour les documents complexes.
  • Téléchargez le fichier généré contenant vos données tabulaires parfaitement extraites et formatées.

Cas d’usage

Extraction de bilans financiers et de comptes de résultat depuis des rapports annuels en PDF vers CSV.
Numérisation de grilles tarifaires et de catalogues produits PDF en format JSON pour des applications web.
Récupération de données expérimentales depuis des publications scientifiques pour une méta-analyse.

Exemples

1. Extraction d'un rapport financier en JSON

Analyste de données
Contexte
Un analyste doit intégrer les tableaux d'un rapport annuel PDF dans une base de données NoSQL.
Problème
Les tableaux PDF sont difficiles à parser manuellement sans perdre les coordonnées et la structure des cellules.
Comment l’utiliser
Chargez le rapport PDF, sélectionnez le format d'export 'JSON', choisissez la méthode 'Cluster' et lancez l'extraction.
Configuration d’exemple
Format: JSON, Méthode: Cluster
Résultat
Un fichier JSON est généré, contenant les tableaux du rapport avec les numéros de page et les boîtes de délimitation (bbox) préservés.

2. Conversion de factures en CSV

Comptable
Contexte
Un comptable reçoit des factures de plusieurs pages en PDF et doit importer les lignes de facturation dans Excel.
Problème
Copier-coller les tableaux depuis le PDF vers Excel décale souvent les colonnes et fusionne les cellules.
Comment l’utiliser
Importez la facture PDF, indiquez les pages contenant les tableaux (ex: '2-3') et choisissez le format d'export 'CSV'.
Configuration d’exemple
Format: CSV, Pages: 2-3
Résultat
Les données tabulaires sont extraites et aplaties dans un fichier CSV propre, prêt à être ouvert et analysé dans Excel.

Tester avec des échantillons

json, csv, html

Hubs associés

FAQ

Quels formats d'exportation sont pris en charge ?

Vous pouvez exporter les tableaux extraits en JSON structuré, en CSV plat ou en HTML.

Puis-je extraire des tableaux de pages spécifiques uniquement ?

Oui, le champ 'Pages' vous permet de définir des pages précises (par exemple, 1,3,5-7) pour limiter l'extraction.

Quelle est la différence entre les formats JSON et CSV ici ?

Le format JSON conserve la structure complète, la page et les coordonnées (bbox) des cellules, tandis que le CSV aplatit les données pour une lecture simple en lignes et colonnes.

À quoi sert l'option 'Utiliser l'arbre de structure' ?

Cette option aide à mieux identifier les tableaux dans les PDF balisés en s'appuyant sur la structure sémantique interne du document.

Qu'est-ce que la méthode de détection 'Cluster' ?

C'est un algorithme alternatif qui regroupe les éléments textuels proches pour reconstituer les tableaux, particulièrement utile quand la méthode par défaut échoue.

Documentation de l'API

Point de terminaison de la requête

POST /fr/api/tools/pdf-table-extractor-to-csv-json

Paramètres de la requête

Nom du paramètre Type Requis Description
pdfFile file (Téléchargement requis) Oui -
exportFormat select Non -
tableMethod select Non -
pages text Non -
useStructTree checkbox Non -

Les paramètres de type fichier doivent être téléchargés d'abord via POST /upload/pdf-table-extractor-to-csv-json pour obtenir filePath, puis filePath doit être passé au champ de fichier correspondant.

Format de réponse

{
  "filePath": "/public/processing/randomid.ext",
  "fileName": "output.ext",
  "contentType": "application/octet-stream",
  "size": 1024,
  "metadata": {
    "key": "value"
  },
  "error": "Error message (optional)",
  "message": "Notification message (optional)"
}
Fichier: Fichier

Documentation de MCP

Ajoutez cet outil à votre configuration de serveur MCP:

{
  "mcpServers": {
    "elysiatools-pdf-table-extractor-to-csv-json": {
      "name": "pdf-table-extractor-to-csv-json",
      "description": "Extrait des tableaux PDF avec OpenDataLoader et les exporte en JSON, CSV ou HTML",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=pdf-table-extractor-to-csv-json",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Vous pouvez chaîner plusieurs outils, par ex.: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, max 20 outils.

Prend en charge les liens de fichiers URL ou la codification Base64 pour les paramètres de fichier.

Si vous rencontrez des problèmes, veuillez nous contacter à [email protected]