PDF-Lesereihenfolge-Debugger

Vergleicht rohe PDF-Zeichenreihenfolge mit XY-Cut++, um Probleme in komplexen Layouts zu finden

Laden Sie ein PDF hoch. Das Tool fuehrt OpenDataLoader mit readingOrder=off und readingOrder=xycut aus und erstellt einen Seitenvergleich. Das ist besonders hilfreich bei mehrspaltigen Berichten, Broschueren und komplexen Layouts.

Beispielergebnisse

1 Beispiele

Lesereihenfolge eines PDFs pruefen

Der reale Test verglich 2 Seiten und fand keinen Unterschied zwischen XY-Cut++ und Rohreihenfolge.

Reading order comparison report for 2 extracted pages with 0 changed pages between raw draw order and XY-Cut++.
Eingabeparameter anzeigen
{ "pdfFile": "/public/samples/pdf/ebook-navigation-example1.pdf", "useStructTree": false, "includeHeaderFooter": false, "pages": "1-4" }

Click to upload file or drag and drop file here

Maximum file size: 10MB Supported formats: application/pdf

Wichtige Fakten

Kategorie
Entwicklung & Web
Eingabetypen
file, checkbox, text
Ausgabetyp
html
Sample-Abdeckung
4
API verfügbar
Yes

Überblick

Der PDF-Lesereihenfolge-Debugger ist ein spezialisiertes Analyse-Tool, das die rohe Zeichenreihenfolge eines PDFs mit dem fortschrittlichen XY-Cut++ Algorithmus vergleicht. Es hilft Entwicklern und Datenanalysten dabei, Extraktionsfehler in komplexen Layouts wie mehrspaltigen Berichten oder wissenschaftlichen Arbeiten zu identifizieren und die optimale Verarbeitungsstrategie für die Textgewinnung festzulegen.

Wann verwenden

  • Wenn Text aus mehrspaltigen PDF-Dokumenten in der falschen logischen Reihenfolge extrahiert wird.
  • Zur Validierung, ob der XY-Cut++ Algorithmus die Lesbarkeit komplexer Layouts im Vergleich zur Standard-Extraktion verbessert.
  • Bei der Fehlersuche in automatisierten Datenextraktions-Pipelines für Broschüren, Fachzeitschriften oder Geschäftsberichte.

So funktioniert es

  • Laden Sie das gewünschte PDF-Dokument hoch und geben Sie optional den zu prüfenden Seitenbereich an.
  • Das Tool führt zwei parallele Extraktionen durch: eine basierend auf der rohen Zeichenreihenfolge und eine mit aktiviertem XY-Cut++ Layout-Parsing.
  • Die Ergebnisse werden pro Seite verglichen, um Abweichungen in der Textabfolge und potenzielle Strukturfehler zu ermitteln.
  • Sie erhalten einen detaillierten HTML-Bericht, der die Unterschiede visualisiert und zeigt, welche Methode die logische Struktur besser erhält.

Anwendungsfälle

Analyse von wissenschaftlichen Papieren mit zweispaltigem Layout zur Sicherstellung der korrekten Zitations- und Textreihenfolge.
Überprüfung von Geschäftsberichten mit komplexen Infografiken, Randnotizen und Textumfluss.
Debugging von digitalen PDFs vor der Einspeisung in Large Language Models (LLMs) oder Datenbanken zur Vermeidung von Kontextverlust.

Beispiele

1. Analyse eines zweispaltigen Forschungsberichts

Data Scientist
Hintergrund
Ein Team extrahiert Daten aus medizinischen Fachzeitschriften, stellt aber fest, dass Sätze aus Spalte A oft mit Sätzen aus Spalte B vermischt werden.
Problem
Identifizierung, ob die Standard-Extraktion den Lesefluss zerstört und ob XY-Cut++ dies beheben kann.
Verwendung
PDF hochladen, Seitenbereich auf die betroffenen Seiten einschränken und den Vergleich starten.
Beispielkonfiguration
pages: "1-5", useStructTree: false
Ergebnis
Der HTML-Bericht zeigt grafisch, dass XY-Cut++ die Spalten korrekt trennt, während die Rohdaten den Text zeilenübergreifend vermischen.

2. Validierung von Geschäftsberichten

Softwareentwickler
Hintergrund
Ein Unternehmen automatisiert die Erfassung von Finanzberichten, die viele Tabellen und wiederkehrende Kopfzeilen enthalten.
Problem
Sicherstellen, dass Kopfzeilen die Datenextraktion nicht verfälschen und die logische Struktur erhalten bleibt.
Verwendung
PDF hochladen und die Option 'Header/Footer einbeziehen' deaktivieren, um nur den Hauptinhalt zu vergleichen.
Beispielkonfiguration
includeHeaderFooter: false, useStructTree: true
Ergebnis
Ein sauberer Vergleich des Kerninhalts, der bestätigt, dass die Nutzung des Strukturbaums die höchste Genauigkeit für die nachfolgende Verarbeitung liefert.

Mit Samples testen

pdf, file

Verwandte Hubs

FAQ

Was ist XY-Cut++?

Ein Algorithmus zur Layout-Analyse, der Textblöcke in komplexen Dokumenten erkennt und in die korrekte logische Lesereihenfolge bringt.

Warum ist die rohe Zeichenreihenfolge oft fehlerhaft?

PDFs speichern Text oft in der Reihenfolge der Erstellung, nicht der visuellen Position, was besonders bei Spalten zu vermischten Texten führt.

Kann ich Kopf- und Fußzeilen vom Vergleich ausschließen?

Ja, über die Option 'Header/Footer einbeziehen' können Sie steuern, ob diese Bereiche in die Analyse einfließen sollen.

Was bewirkt die Option 'Strukturbaum verwenden'?

Sie nutzt vorhandene Metadaten (Tagged PDF), um die logische Struktur des Dokuments für den Vergleich heranzuziehen.

Welche Dateiformate werden unterstützt?

Dieses Tool ist ausschließlich für die Analyse von PDF-Dateien konzipiert.

API-Dokumentation

Request-Endpunkt

POST /de/api/tools/pdf-reading-order-debugger

Request-Parameter

Parameter-Name Typ Erforderlich Beschreibung
pdfFile file (Upload erforderlich) Ja -
useStructTree checkbox Nein -
includeHeaderFooter checkbox Nein -
pages text Nein -

Dateitypparameter müssen erst über POST /upload/pdf-reading-order-debugger hochgeladen werden, um filePath zu erhalten, dann filePath an das entsprechende Dateifeld übergeben.

Antwortformat

{
  "result": "
Processed HTML content
", "error": "Error message (optional)", "message": "Notification message (optional)", "metadata": { "key": "value" } }
HTML: HTML

MCP-Dokumentation

Fügen Sie dieses Tool zu Ihrer MCP-Server-Konfiguration hinzu:

{
  "mcpServers": {
    "elysiatools-pdf-reading-order-debugger": {
      "name": "pdf-reading-order-debugger",
      "description": "Vergleicht rohe PDF-Zeichenreihenfolge mit XY-Cut++, um Probleme in komplexen Layouts zu finden",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=pdf-reading-order-debugger",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Sie können mehrere Tools verketten, z.B.: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, maximal 20 Tools.

Unterstützt URL-Dateilinks oder Base64-Codierung für Dateiparameter.

Wenn Sie auf Probleme stoßen, kontaktieren Sie uns bitte bei [email protected]