Wichtige Fakten
- Kategorie
- Entwicklung & Web
- Eingabetypen
- file, checkbox, text, select
- Ausgabetyp
- html
- Sample-Abdeckung
- 4
- API verfügbar
- Yes
Überblick
Der PDF-zu-JSON-Struktur-Explorer extrahiert strukturierte OpenDataLoader-JSON-Daten aus PDF-Dokumenten und visualisiert diese in einer übersichtlichen Explorer-Ansicht. Entwickler und Datenanalysten können damit semantische Knoten wie Überschriften, Absätze, Tabellen, Listen und Bounding Boxes direkt im Browser untersuchen, um die Qualität des Parsings zu überprüfen und die Dokumentenstruktur zu debuggen.
Wann verwenden
- •Wenn Sie die semantische Hierarchie (Überschriften, Absätze) eines PDF-Dokuments für das Debugging analysieren möchten.
- •Um zu überprüfen, ob Tabellen und Listen von einem Parser korrekt erkannt und strukturiert wurden.
- •Wenn Sie gezielt nach bestimmten Knotenarten filtern oder Bounding-Box-Koordinaten für die Weiterverarbeitung auslesen müssen.
So funktioniert es
- •Laden Sie Ihre PDF-Datei hoch und geben Sie bei Bedarf bestimmte Seitenbereiche an.
- •Wählen Sie Filteroptionen aus, um beispielsweise nur Tabellen oder Überschriften anzuzeigen, und aktivieren Sie bei Bedarf die Maskierung sensibler Daten.
- •Das Tool verarbeitet das Dokument und generiert ein OpenDataLoader-JSON.
- •Das Ergebnis wird als interaktive HTML-Explorer-Ansicht gerendert, in der Sie die semantischen Knoten und Metadaten im Detail betrachten können.
Anwendungsfälle
Beispiele
1. Analyse von Markenrichtlinien
Daten-Ingenieur- Hintergrund
- Ein Daten-Ingenieur muss ein Skript schreiben, das Text und Tabellen aus PDF-Markenrichtlinien extrahiert.
- Problem
- Es ist unklar, wie der PDF-Parser die Hierarchie der Überschriften und die eingebetteten Tabellen interpretiert.
- Verwendung
- Laden Sie die Datei hoch, belassen Sie den Strukturbaum aktiviert und setzen Sie den Knotenfilter auf 'Alle Knoten'.
- Beispielkonfiguration
-
{ "useStructTree": true, "nodeFilter": "all" } - Ergebnis
- Eine Explorer-Ansicht zeigt alle semantischen Knoten, sodass der Ingenieur genau sieht, welche Bounding Boxes und Hierarchien der Parser erkannt hat.
2. Überprüfung der Tabellenerkennung in Finanzberichten
Softwareentwickler- Hintergrund
- Ein Entwickler baut eine Pipeline zur Extraktion von Finanzdaten aus Quartalsberichten.
- Problem
- Einige Tabellen werden fehlerhaft ausgelesen, und die genaue Ursache im Parser muss gefunden werden.
- Verwendung
- Laden Sie den Finanzbericht hoch, geben Sie die relevanten Seiten an und setzen Sie den Knotenfilter auf 'Nur Tabellen'.
- Beispielkonfiguration
-
{ "pages": "10-12", "nodeFilter": "table" } - Ergebnis
- Die HTML-Ansicht filtert alles außer Tabellen heraus und zeigt die exakte JSON-Struktur der Tabellen auf den Seiten 10 bis 12 zur schnellen Fehlerbehebung.
Mit Samples testen
json, pdf, fileVerwandte Hubs
FAQ
Welche Elemente werden aus der PDF extrahiert?
Das Tool extrahiert semantische Knoten wie Überschriften, Absätze, Tabellen und Listen inklusive ihrer Bounding-Box-Koordinaten und Seitenmetadaten.
Kann ich die Analyse auf bestimmte Seiten beschränken?
Ja, Sie können im Feld 'Seiten' spezifische Seiten oder Bereiche (z. B. 1,3,5-7) angeben, um nur diese zu analysieren.
Was bewirkt der Knotenfilter?
Mit dem Knotenfilter können Sie die Explorer-Ansicht auf bestimmte Elementtypen wie 'Nur Tabellen', 'Nur Überschriften' oder 'Nur Listen' reduzieren.
Werden sensible Daten geschützt?
Ja, durch Aktivierung der Option 'Sensible Daten maskieren' werden vertrauliche Informationen im generierten JSON-Output unkenntlich gemacht.
In welchem Format wird das Ergebnis angezeigt?
Das Ergebnis wird als interaktive HTML-Ansicht dargestellt, die eine einfache Navigation durch die extrahierte JSON-Struktur ermöglicht.