PDF-Tabellenextraktor zu CSV/JSON

Extrahiert Tabellen aus PDFs mit OpenDataLoader und exportiert sie als JSON, CSV oder HTML

Nach dem Upload eines PDFs erkennt das Tool mit OpenDataLoader semantische Tabellen und exportiert sie im gewaehlten Format. JSON behaelt Seite, Bounding Box und Struktur; CSV flacht Zellen ab; HTML erzeugt visuelle Tabellen.

Beispielergebnisse

1 Beispiele

Tabellen aus einem Bericht extrahieren

Das reale Sample extrahierte 2 Tabellen und speicherte sie als strukturiertes JSON.

pdf-table-extractor-to-csv-json-example1.json Datei anzeigen
Eingabeparameter anzeigen
{ "pdfFile": "/public/samples/pdf/financial-report-example1.pdf", "exportFormat": "json", "tableMethod": "cluster", "pages": "", "useStructTree": false }

Click to upload file or drag and drop file here

Maximum file size: 10MB Supported formats: application/pdf

Wichtige Fakten

Kategorie
Daten & Tabellen
Eingabetypen
file, select, text, checkbox
Ausgabetyp
file
Sample-Abdeckung
4
API verfügbar
Yes

Überblick

Der PDF-Tabellenextraktor ist ein leistungsstarkes Tool, das mit OpenDataLoader semantische Tabellen aus PDF-Dokumenten erkennt und extrahiert. Laden Sie einfach Ihre PDF-Datei hoch, und das Tool wandelt eingebettete Tabellen präzise in strukturierte JSON-, flache CSV- oder visuelle HTML-Formate um. Ideal für die schnelle Weiterverarbeitung von Finanzberichten, Forschungsdaten und tabellenlastigen Dokumenten ohne fehleranfälliges manuelles Abtippen.

Wann verwenden

  • Wenn Sie Finanzberichte, Rechnungen oder wissenschaftliche Arbeiten analysieren und die darin enthaltenen Tabellen für Datenbanken oder Tabellenkalkulationen benötigen.
  • Wenn Sie strukturierte Daten aus mehrseitigen PDFs extrahieren möchten, ohne das Layout oder die exakte Zeilen- und Spaltenzuordnung zu verlieren.
  • Wenn Sie gezielt bestimmte Seiten eines Dokuments verarbeiten und die Tabellendaten in maschinenlesbare Formate wie JSON oder CSV konvertieren müssen.

So funktioniert es

  • Laden Sie Ihr PDF-Dokument über das Upload-Feld hoch.
  • Wählen Sie das gewünschte Exportformat (JSON, CSV oder HTML) und legen Sie bei Bedarf spezifische Seiten (z. B. 1,3,5-7) fest.
  • Passen Sie erweiterte Optionen wie die Tabellenerkennungsmethode (Standard oder Cluster) oder die Nutzung des Strukturbaums an.
  • Starten Sie die Extraktion und laden Sie die generierte Datei mit den präzise erkannten Tabellendaten herunter.

Anwendungsfälle

Automatisierte Übernahme von Bilanzen und Gewinn- und Verlustrechnungen aus PDF-Jahresberichten in Excel via CSV.
Extraktion von Produktspezifikationen und Preislisten aus Herstellerkatalogen zur Integration in Webshops über JSON.
Umwandlung von tabellarischen Forschungsdaten aus wissenschaftlichen Publikationen in HTML für die direkte Darstellung auf einer Webseite.

Beispiele

1. Finanzdaten aus Jahresbericht extrahieren

Finanzanalyst
Hintergrund
Ein Analyst muss die Quartalszahlen aus einem 50-seitigen PDF-Bericht in ein Finanzmodell übertragen.
Problem
Das manuelle Kopieren der Tabellen führt zu Formatierungsfehlern und verschobenen Spalten.
Verwendung
Laden Sie den Bericht hoch, wählen Sie als Exportformat 'CSV', setzen Sie die Methode auf 'Cluster' und geben Sie die Seiten mit den Bilanzen (z. B. 12-15) an.
Beispielkonfiguration
{"exportFormat": "csv", "tableMethod": "cluster", "pages": "12-15"}
Ergebnis
Die Tabellen der Seiten 12 bis 15 werden sauber als CSV-Datei exportiert und können direkt in Excel importiert werden.

2. Forschungsdaten für API aufbereiten

Data Scientist
Hintergrund
Ein Data Scientist sammelt statistische Tabellen aus verschiedenen PDF-Studien, um eine Datenbank aufzubauen.
Problem
Die Tabellen müssen maschinenlesbar sein und genaue Positionsdaten (Bounding Boxes) sowie Seiteninformationen enthalten.
Verwendung
Laden Sie die PDF-Studie hoch, wählen Sie 'JSON' als Exportformat und aktivieren Sie bei Bedarf den Strukturbaum.
Beispielkonfiguration
{"exportFormat": "json", "tableMethod": "default", "useStructTree": true}
Ergebnis
Eine strukturierte JSON-Datei wird generiert, die alle Tabellendaten inklusive Seitenangaben und Zellkoordinaten für die automatisierte Weiterverarbeitung enthält.

Mit Samples testen

json, csv, html

Verwandte Hubs

FAQ

Welche Exportformate werden unterstützt?

Sie können die extrahierten Tabellen als strukturiertes JSON, als flache CSV-Datei oder als visuelle HTML-Tabelle exportieren.

Kann ich Tabellen nur von bestimmten Seiten extrahieren?

Ja, Sie können im Feld 'Seiten' spezifische Seitenzahlen oder Bereiche (z. B. 1,3,5-7) angeben, um nur diese zu verarbeiten.

Was ist der Unterschied zwischen den Exportformaten JSON und CSV?

JSON behält die genaue Struktur, Bounding Boxes und Seiteninformationen bei, während CSV die Zellen für eine einfache Nutzung in Excel oder Datenbanken abflacht.

Was bewirkt die Tabellenerkennungsmethode 'Cluster'?

Die Cluster-Methode gruppiert nahe beieinander liegende Textelemente, was besonders bei komplexen oder rahmenlosen Tabellenlayouts zu besseren Erkennungsergebnissen führen kann.

Wofür ist die Option 'Strukturbaum verwenden'?

Wenn das PDF über getaggte Strukturen (Tagged PDF) verfügt, nutzt diese Option den internen Strukturbaum des Dokuments, um Tabellen noch präziser zu identifizieren.

API-Dokumentation

Request-Endpunkt

POST /de/api/tools/pdf-table-extractor-to-csv-json

Request-Parameter

Parameter-Name Typ Erforderlich Beschreibung
pdfFile file (Upload erforderlich) Ja -
exportFormat select Nein -
tableMethod select Nein -
pages text Nein -
useStructTree checkbox Nein -

Dateitypparameter müssen erst über POST /upload/pdf-table-extractor-to-csv-json hochgeladen werden, um filePath zu erhalten, dann filePath an das entsprechende Dateifeld übergeben.

Antwortformat

{
  "filePath": "/public/processing/randomid.ext",
  "fileName": "output.ext",
  "contentType": "application/octet-stream",
  "size": 1024,
  "metadata": {
    "key": "value"
  },
  "error": "Error message (optional)",
  "message": "Notification message (optional)"
}
Datei: Datei

MCP-Dokumentation

Fügen Sie dieses Tool zu Ihrer MCP-Server-Konfiguration hinzu:

{
  "mcpServers": {
    "elysiatools-pdf-table-extractor-to-csv-json": {
      "name": "pdf-table-extractor-to-csv-json",
      "description": "Extrahiert Tabellen aus PDFs mit OpenDataLoader und exportiert sie als JSON, CSV oder HTML",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=pdf-table-extractor-to-csv-json",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Sie können mehrere Tools verketten, z.B.: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, maximal 20 Tools.

Unterstützt URL-Dateilinks oder Base64-Codierung für Dateiparameter.

Wenn Sie auf Probleme stoßen, kontaktieren Sie uns bitte bei [email protected]