Tagged-PDF-Inspektor

Vergleicht Extraktion mit und ohne StructTree, um nuetzliche Tagged-Struktur im PDF zu erkennen

Nach dem Upload eines PDFs fuehrt das Tool OpenDataLoader mit useStructTree=true und useStructTree=false aus und vergleicht Ueberschriften, Listen, Tabellen und Absatzbloecke. So laesst sich beurteilen, ob die Tagged-Struktur fuer Accessibility, Migration oder RAG sinnvoll ist.

Beispielergebnisse

1 Beispiele

Pruefen, ob ein PDF nuetzliche Tagged-Struktur hat

Das reale Sample ergab 20 vs 22 semantische Knoten und Unterschiede bei einigen Ueberschriften.

Real sample report comparing StructTree and plain extraction; this sample produced 20 vs 22 semantic nodes and showed heading-text differences.
Eingabeparameter anzeigen
{ "pdfFile": "/public/samples/pdf/brand-guidelines-pdf-example1.pdf", "pages": "", "includeHeaderFooter": false }

Click to upload file or drag and drop file here

Maximum file size: 10MB Supported formats: application/pdf

Wichtige Fakten

Kategorie
Entwicklung & Web
Eingabetypen
file, text, checkbox
Ausgabetyp
html
Sample-Abdeckung
4
API verfügbar
Yes

Überblick

Der Tagged-PDF-Inspektor analysiert hochgeladene PDF-Dokumente und vergleicht die Datenextraktion mit und ohne aktivierten StructTree. Durch die direkte Gegenüberstellung von Überschriften, Listen, Tabellen und Absatzblöcken hilft das Tool Entwicklern und Content-Managern zu bewerten, ob die vorhandene Tagged-Struktur für Barrierefreiheit, Datenmigration oder RAG-Pipelines (Retrieval-Augmented Generation) nützlich ist.

Wann verwenden

  • Wenn Sie prüfen müssen, ob ein PDF-Dokument über eine saubere semantische Struktur für Barrierefreiheit (Accessibility) verfügt.
  • Vor der Integration von PDFs in eine RAG-Pipeline, um zu entscheiden, ob der StructTree für eine bessere Chunking-Qualität genutzt werden sollte.
  • Bei der Migration von PDF-Inhalten in CMS-Systeme, um die Zuverlässigkeit der extrahierten Überschriften und Tabellen zu testen.

So funktioniert es

  • Laden Sie die zu analysierende PDF-Datei hoch und geben Sie optional spezifische Seitenbereiche an.
  • Wählen Sie aus, ob Kopf- und Fußzeilen in die Analyse einbezogen werden sollen.
  • Das Tool führt die Extraktion zweimal durch: einmal mit und einmal ohne StructTree-Unterstützung.
  • Sie erhalten einen detaillierten HTML-Bericht, der die Unterschiede bei semantischen Knoten wie Überschriften und Listen visualisiert.

Anwendungsfälle

Qualitätssicherung von barrierefreien PDFs (PDF/UA) durch Überprüfung der logischen Dokumentstruktur.
Optimierung der Datenaufbereitung für LLMs und RAG-Anwendungen durch Auswahl der besten Extraktionsmethode.
Automatisierte Inhaltsmigration von Legacy-PDFs in strukturierte Formate wie HTML oder Markdown.

Beispiele

1. Prüfung von Markenrichtlinien für RAG

Data Engineer
Hintergrund
Ein Unternehmen möchte seine PDF-Markenrichtlinien in eine interne KI-Wissensdatenbank (RAG) einspeisen.
Problem
Es ist unklar, ob die PDFs gut genug strukturiert sind, um Überschriften und Listen sauber zu extrahieren.
Verwendung
Laden Sie die Datei `brand-guidelines.pdf` hoch und starten Sie den Vergleich ohne Kopf- und Fußzeilen.
Beispielkonfiguration
Seiten: leer, Header/Footer einbeziehen: false
Ergebnis
Der HTML-Bericht zeigt 22 semantische Knoten mit StructTree gegenüber 20 ohne. Die Überschriften werden mit StructTree deutlich präziser erkannt, was die Entscheidung für diese Extraktionsmethode in der RAG-Pipeline bestätigt.

2. Analyse eines Finanzberichts

Accessibility-Tester
Hintergrund
Ein Finanzbericht muss auf einer öffentlichen Website barrierefrei zur Verfügung gestellt werden.
Problem
Es muss schnell geprüft werden, ob die komplexen Datentabellen im PDF korrekte Tags aufweisen.
Verwendung
Laden Sie den Finanzbericht hoch, geben Sie die Seiten mit den Tabellen an (z. B. 10-15) und führen Sie die Analyse aus.
Beispielkonfiguration
Seiten: 10-15, Header/Footer einbeziehen: false
Ergebnis
Der Vergleich deckt auf, dass die Tabellenstruktur im StructTree fehlerhaft ist und stark von der visuellen Darstellung abweicht. Das Dokument muss vor der Veröffentlichung neu getaggt werden.

Mit Samples testen

pdf, file

Verwandte Hubs

FAQ

Was ist ein StructTree in einer PDF-Datei?

Der StructTree (Strukturbaum) ist ein unsichtbares Tagging-System in PDFs, das die logische Lesereihenfolge und semantische Elemente wie Überschriften, Absätze und Tabellen definiert.

Warum sollte ich die Extraktion vergleichen?

Nicht alle PDFs sind korrekt getaggt. Ein Vergleich zeigt sofort, ob die Nutzung der Tags die Datenqualität verbessert oder ob eine rein visuelle Extraktion bessere Ergebnisse liefert.

Kann ich nur bestimmte Seiten analysieren?

Ja, über das Feld 'Seiten' können Sie gezielt Seitenbereiche (z. B. 1,3,5-7) für die Analyse festlegen, um die Verarbeitung zu beschleunigen.

Werden Kopf- und Fußzeilen automatisch ignoriert?

Standardmäßig ja. Sie können jedoch die Option 'Header/Footer einbeziehen' aktivieren, falls diese Elemente für Ihre Analyse relevant sind.

In welchem Format erhalte ich das Ergebnis?

Das Tool generiert einen übersichtlichen HTML-Bericht, der die semantischen Knoten und Textunterschiede beider Extraktionsmethoden direkt gegenüberstellt.

API-Dokumentation

Request-Endpunkt

POST /de/api/tools/tagged-pdf-inspector

Request-Parameter

Parameter-Name Typ Erforderlich Beschreibung
pdfFile file (Upload erforderlich) Ja -
pages text Nein -
includeHeaderFooter checkbox Nein -

Dateitypparameter müssen erst über POST /upload/tagged-pdf-inspector hochgeladen werden, um filePath zu erhalten, dann filePath an das entsprechende Dateifeld übergeben.

Antwortformat

{
  "result": "
Processed HTML content
", "error": "Error message (optional)", "message": "Notification message (optional)", "metadata": { "key": "value" } }
HTML: HTML

MCP-Dokumentation

Fügen Sie dieses Tool zu Ihrer MCP-Server-Konfiguration hinzu:

{
  "mcpServers": {
    "elysiatools-tagged-pdf-inspector": {
      "name": "tagged-pdf-inspector",
      "description": "Vergleicht Extraktion mit und ohne StructTree, um nuetzliche Tagged-Struktur im PDF zu erkennen",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=tagged-pdf-inspector",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Sie können mehrere Tools verketten, z.B.: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, maximal 20 Tools.

Unterstützt URL-Dateilinks oder Base64-Codierung für Dateiparameter.

Wenn Sie auf Probleme stoßen, kontaktieren Sie uns bitte bei [email protected]