Wichtige Fakten
- Kategorie
- Entwicklung & Web
- Eingabetypen
- file, text, checkbox
- Ausgabetyp
- html
- Sample-Abdeckung
- 4
- API verfügbar
- Yes
Überblick
Der Tagged-PDF-Inspektor analysiert hochgeladene PDF-Dokumente und vergleicht die Datenextraktion mit und ohne aktivierten StructTree. Durch die direkte Gegenüberstellung von Überschriften, Listen, Tabellen und Absatzblöcken hilft das Tool Entwicklern und Content-Managern zu bewerten, ob die vorhandene Tagged-Struktur für Barrierefreiheit, Datenmigration oder RAG-Pipelines (Retrieval-Augmented Generation) nützlich ist.
Wann verwenden
- •Wenn Sie prüfen müssen, ob ein PDF-Dokument über eine saubere semantische Struktur für Barrierefreiheit (Accessibility) verfügt.
- •Vor der Integration von PDFs in eine RAG-Pipeline, um zu entscheiden, ob der StructTree für eine bessere Chunking-Qualität genutzt werden sollte.
- •Bei der Migration von PDF-Inhalten in CMS-Systeme, um die Zuverlässigkeit der extrahierten Überschriften und Tabellen zu testen.
So funktioniert es
- •Laden Sie die zu analysierende PDF-Datei hoch und geben Sie optional spezifische Seitenbereiche an.
- •Wählen Sie aus, ob Kopf- und Fußzeilen in die Analyse einbezogen werden sollen.
- •Das Tool führt die Extraktion zweimal durch: einmal mit und einmal ohne StructTree-Unterstützung.
- •Sie erhalten einen detaillierten HTML-Bericht, der die Unterschiede bei semantischen Knoten wie Überschriften und Listen visualisiert.
Anwendungsfälle
Beispiele
1. Prüfung von Markenrichtlinien für RAG
Data Engineer- Hintergrund
- Ein Unternehmen möchte seine PDF-Markenrichtlinien in eine interne KI-Wissensdatenbank (RAG) einspeisen.
- Problem
- Es ist unklar, ob die PDFs gut genug strukturiert sind, um Überschriften und Listen sauber zu extrahieren.
- Verwendung
- Laden Sie die Datei `brand-guidelines.pdf` hoch und starten Sie den Vergleich ohne Kopf- und Fußzeilen.
- Beispielkonfiguration
-
Seiten: leer, Header/Footer einbeziehen: false - Ergebnis
- Der HTML-Bericht zeigt 22 semantische Knoten mit StructTree gegenüber 20 ohne. Die Überschriften werden mit StructTree deutlich präziser erkannt, was die Entscheidung für diese Extraktionsmethode in der RAG-Pipeline bestätigt.
2. Analyse eines Finanzberichts
Accessibility-Tester- Hintergrund
- Ein Finanzbericht muss auf einer öffentlichen Website barrierefrei zur Verfügung gestellt werden.
- Problem
- Es muss schnell geprüft werden, ob die komplexen Datentabellen im PDF korrekte Tags aufweisen.
- Verwendung
- Laden Sie den Finanzbericht hoch, geben Sie die Seiten mit den Tabellen an (z. B. 10-15) und führen Sie die Analyse aus.
- Beispielkonfiguration
-
Seiten: 10-15, Header/Footer einbeziehen: false - Ergebnis
- Der Vergleich deckt auf, dass die Tabellenstruktur im StructTree fehlerhaft ist und stark von der visuellen Darstellung abweicht. Das Dokument muss vor der Veröffentlichung neu getaggt werden.
Mit Samples testen
pdf, fileVerwandte Hubs
FAQ
Was ist ein StructTree in einer PDF-Datei?
Der StructTree (Strukturbaum) ist ein unsichtbares Tagging-System in PDFs, das die logische Lesereihenfolge und semantische Elemente wie Überschriften, Absätze und Tabellen definiert.
Warum sollte ich die Extraktion vergleichen?
Nicht alle PDFs sind korrekt getaggt. Ein Vergleich zeigt sofort, ob die Nutzung der Tags die Datenqualität verbessert oder ob eine rein visuelle Extraktion bessere Ergebnisse liefert.
Kann ich nur bestimmte Seiten analysieren?
Ja, über das Feld 'Seiten' können Sie gezielt Seitenbereiche (z. B. 1,3,5-7) für die Analyse festlegen, um die Verarbeitung zu beschleunigen.
Werden Kopf- und Fußzeilen automatisch ignoriert?
Standardmäßig ja. Sie können jedoch die Option 'Header/Footer einbeziehen' aktivieren, falls diese Elemente für Ihre Analyse relevant sind.
In welchem Format erhalte ich das Ergebnis?
Das Tool generiert einen übersichtlichen HTML-Bericht, der die semantischen Knoten und Textunterschiede beider Extraktionsmethoden direkt gegenüberstellt.