PDF-zu-JSON-Struktur-Explorer

Extrahiert OpenDataLoader-JSON aus einem PDF und zeigt Ueberschriften, Absaetze, Tabellen, Listen und Bounding Boxes

Nach dem Upload eines PDFs erzeugt das Tool OpenDataLoader-JSON und stellt Ueberschriften, Absaetze, Listen, Tabellen, Seiten und Bounding Boxes in einer Explorer-Ansicht dar. Das ist hilfreich zur Parser-Debugging und zur Pruefung der semantischen Ebene.

Beispielergebnisse

1 Beispiele

Semantische Struktur eines PDFs erkunden

Das reale Sample zeigt 20 semantische Knoten ohne Roh-JSON-Lektuere.

Explorer report showing 20 semantic nodes from brand-guidelines-pdf-example1.pdf with page metadata, node counts, and JSON preview.
Eingabeparameter anzeigen
{ "pdfFile": "/public/samples/pdf/brand-guidelines-pdf-example1.pdf", "useStructTree": true, "sanitizeSensitiveData": false, "pages": "", "nodeFilter": "all", "searchTerm": "" }

Click to upload file or drag and drop file here

Maximum file size: 10MB Supported formats: application/pdf

Wichtige Fakten

Kategorie
Entwicklung & Web
Eingabetypen
file, checkbox, text, select
Ausgabetyp
html
Sample-Abdeckung
4
API verfügbar
Yes

Überblick

Der PDF-zu-JSON-Struktur-Explorer extrahiert strukturierte OpenDataLoader-JSON-Daten aus PDF-Dokumenten und visualisiert diese in einer übersichtlichen Explorer-Ansicht. Entwickler und Datenanalysten können damit semantische Knoten wie Überschriften, Absätze, Tabellen, Listen und Bounding Boxes direkt im Browser untersuchen, um die Qualität des Parsings zu überprüfen und die Dokumentenstruktur zu debuggen.

Wann verwenden

  • Wenn Sie die semantische Hierarchie (Überschriften, Absätze) eines PDF-Dokuments für das Debugging analysieren möchten.
  • Um zu überprüfen, ob Tabellen und Listen von einem Parser korrekt erkannt und strukturiert wurden.
  • Wenn Sie gezielt nach bestimmten Knotenarten filtern oder Bounding-Box-Koordinaten für die Weiterverarbeitung auslesen müssen.

So funktioniert es

  • Laden Sie Ihre PDF-Datei hoch und geben Sie bei Bedarf bestimmte Seitenbereiche an.
  • Wählen Sie Filteroptionen aus, um beispielsweise nur Tabellen oder Überschriften anzuzeigen, und aktivieren Sie bei Bedarf die Maskierung sensibler Daten.
  • Das Tool verarbeitet das Dokument und generiert ein OpenDataLoader-JSON.
  • Das Ergebnis wird als interaktive HTML-Explorer-Ansicht gerendert, in der Sie die semantischen Knoten und Metadaten im Detail betrachten können.

Anwendungsfälle

Debugging von PDF-Parsern durch visuelle Überprüfung der erkannten Dokumentenstruktur und Bounding Boxes.
Qualitätssicherung bei der automatisierten Datenextraktion aus Rechnungen, Berichten oder Handbüchern.
Vorbereitung von Trainingsdaten für Machine-Learning-Modelle durch Validierung der semantischen PDF-Ebenen.

Beispiele

1. Analyse von Markenrichtlinien

Daten-Ingenieur
Hintergrund
Ein Daten-Ingenieur muss ein Skript schreiben, das Text und Tabellen aus PDF-Markenrichtlinien extrahiert.
Problem
Es ist unklar, wie der PDF-Parser die Hierarchie der Überschriften und die eingebetteten Tabellen interpretiert.
Verwendung
Laden Sie die Datei hoch, belassen Sie den Strukturbaum aktiviert und setzen Sie den Knotenfilter auf 'Alle Knoten'.
Beispielkonfiguration
{
  "useStructTree": true,
  "nodeFilter": "all"
}
Ergebnis
Eine Explorer-Ansicht zeigt alle semantischen Knoten, sodass der Ingenieur genau sieht, welche Bounding Boxes und Hierarchien der Parser erkannt hat.

2. Überprüfung der Tabellenerkennung in Finanzberichten

Softwareentwickler
Hintergrund
Ein Entwickler baut eine Pipeline zur Extraktion von Finanzdaten aus Quartalsberichten.
Problem
Einige Tabellen werden fehlerhaft ausgelesen, und die genaue Ursache im Parser muss gefunden werden.
Verwendung
Laden Sie den Finanzbericht hoch, geben Sie die relevanten Seiten an und setzen Sie den Knotenfilter auf 'Nur Tabellen'.
Beispielkonfiguration
{
  "pages": "10-12",
  "nodeFilter": "table"
}
Ergebnis
Die HTML-Ansicht filtert alles außer Tabellen heraus und zeigt die exakte JSON-Struktur der Tabellen auf den Seiten 10 bis 12 zur schnellen Fehlerbehebung.

Mit Samples testen

json, pdf, file

Verwandte Hubs

FAQ

Welche Elemente werden aus der PDF extrahiert?

Das Tool extrahiert semantische Knoten wie Überschriften, Absätze, Tabellen und Listen inklusive ihrer Bounding-Box-Koordinaten und Seitenmetadaten.

Kann ich die Analyse auf bestimmte Seiten beschränken?

Ja, Sie können im Feld 'Seiten' spezifische Seiten oder Bereiche (z. B. 1,3,5-7) angeben, um nur diese zu analysieren.

Was bewirkt der Knotenfilter?

Mit dem Knotenfilter können Sie die Explorer-Ansicht auf bestimmte Elementtypen wie 'Nur Tabellen', 'Nur Überschriften' oder 'Nur Listen' reduzieren.

Werden sensible Daten geschützt?

Ja, durch Aktivierung der Option 'Sensible Daten maskieren' werden vertrauliche Informationen im generierten JSON-Output unkenntlich gemacht.

In welchem Format wird das Ergebnis angezeigt?

Das Ergebnis wird als interaktive HTML-Ansicht dargestellt, die eine einfache Navigation durch die extrahierte JSON-Struktur ermöglicht.

API-Dokumentation

Request-Endpunkt

POST /de/api/tools/pdf-to-json-structure-explorer

Request-Parameter

Parameter-Name Typ Erforderlich Beschreibung
pdfFile file (Upload erforderlich) Ja -
useStructTree checkbox Nein -
sanitizeSensitiveData checkbox Nein -
pages text Nein -
nodeFilter select Nein -
searchTerm text Nein -

Dateitypparameter müssen erst über POST /upload/pdf-to-json-structure-explorer hochgeladen werden, um filePath zu erhalten, dann filePath an das entsprechende Dateifeld übergeben.

Antwortformat

{
  "result": "
Processed HTML content
", "error": "Error message (optional)", "message": "Notification message (optional)", "metadata": { "key": "value" } }
HTML: HTML

MCP-Dokumentation

Fügen Sie dieses Tool zu Ihrer MCP-Server-Konfiguration hinzu:

{
  "mcpServers": {
    "elysiatools-pdf-to-json-structure-explorer": {
      "name": "pdf-to-json-structure-explorer",
      "description": "Extrahiert OpenDataLoader-JSON aus einem PDF und zeigt Ueberschriften, Absaetze, Tabellen, Listen und Bounding Boxes",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=pdf-to-json-structure-explorer",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Sie können mehrere Tools verketten, z.B.: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, maximal 20 Tools.

Unterstützt URL-Dateilinks oder Base64-Codierung für Dateiparameter.

Wenn Sie auf Probleme stoßen, kontaktieren Sie uns bitte bei [email protected]