PDF zu XML

Konvertiert PDF-Dokumente in ein strukturiertes XML-Format mit erhaltener Inhaltshierarchie

Konvertiert PDF-Dokumente in ein strukturiertes XML-Format mit reinem Node.js.

Beispielergebnisse

1 Beispiele

PDF-Dokument zu XML

Konvertiert ein PDF-Dokument in ein strukturiertes XML-Format

pdf-to-xml-output.xml Datei anzeigen
Eingabeparameter anzeigen
{ "sourceFile": "/public/samples/pdf/document.pdf", "outputMode": "structured", "includeDeclaration": true }

Click to upload file or drag and drop file here

Maximum file size: 50MB Supported formats: application/pdf

Wichtige Fakten

Kategorie
Dokumente & PDF
Eingabetypen
file, select, checkbox
Ausgabetyp
file
Sample-Abdeckung
4
API verfügbar
Yes

Überblick

Konvertieren Sie Ihre PDF-Dokumente schnell und präzise in ein strukturiertes XML-Format. Dieses Tool analysiert den Inhalt Ihrer PDF-Dateien und gibt ihn als hierarchisch gegliedertes XML aus, wahlweise im kompakten oder formatierten Layout und mit optionaler XML-Deklaration.

Wann verwenden

  • Wenn Sie Textinhalte und hierarchische Strukturen aus PDF-Dokumenten für die automatisierte Weiterverarbeitung extrahieren müssen.
  • Wenn Sie unstrukturierte PDF-Daten in ein maschinenlesbares XML-Format überführen möchten.
  • Wenn Sie Dokumenteninhalte in XML-basierte Datenbanken oder Content-Management-Systeme importieren müssen.

So funktioniert es

  • Laden Sie Ihre PDF-Datei über das Upload-Feld hoch.
  • Wählen Sie den gewünschten Ausgabemodus (Compact XML oder Pretty-printed XML) aus.
  • Entscheiden Sie, ob eine XML-Deklaration am Anfang der Datei eingefügt werden soll.
  • Starten Sie die Konvertierung und laden Sie die fertige XML-Datei direkt herunter.

Anwendungsfälle

Extraktion von strukturierten Textdaten aus PDF-Berichten für Datenanalysen.
Überführung von PDF-Rechnungen oder Formularen in XML zur automatischen Archivierung.
Vorbereitung von Dokumenteninhalten für den Import in XML-basierte Redaktionssysteme.

Beispiele

1. Automatisierte Rechnungsverarbeitung

Datenanalyst
Hintergrund
Ein Analyst muss monatlich Hunderte von PDF-Rechnungen auswerten, deren Daten manuell schwer zu erfassen sind.
Problem
Die Rechnungsdaten müssen in ein strukturiertes Format überführt werden, um sie in ein ERP-System einzulesen.
Verwendung
Er lädt die PDF-Rechnung hoch, wählt 'Pretty-printed XML' für eine einfache Überprüfung und aktiviert die XML-Deklaration.
Beispielkonfiguration
Ausgabemodus: Pretty-printed XML, XML-Deklaration Einbeziehen: Aktiviert
Ergebnis
Er erhält eine übersichtliche XML-Datei, die alle Rechnungsposten strukturiert auflistet und direkt importiert werden kann.

2. Archivierung von Handbüchern

Technischer Redakteur
Hintergrund
Ein Redakteur möchte alte PDF-Handbücher in ein XML-basiertes Dokumentenmanagementsystem überführen.
Problem
Die manuelle Abschrift oder Konvertierung führt oft zu Strukturverlusten der Kapitel.
Verwendung
Er lädt das PDF-Handbuch hoch, wählt 'Compact XML' zur Speicherplatzoptimierung und startet die Konvertierung.
Beispielkonfiguration
Ausgabemodus: Compact XML, XML-Deklaration Einbeziehen: Aktiviert
Ergebnis
Das Handbuch wird in eine kompakte XML-Struktur konvertiert, die die Kapitelhierarchie beibehält und sofort importfähig ist.

Mit Samples testen

xml, pdf, file

Verwandte Hubs

FAQ

Bleibt die Struktur des PDF-Dokuments im XML erhalten?

Ja, das Tool analysiert das PDF und versucht, die Inhaltshierarchie und Textstrukturen im generierten XML-Format abzubilden.

Was ist der Unterschied zwischen 'Compact XML' und 'Pretty-printed XML'?

Compact XML minimiert Leerzeichen für eine geringere Dateigröße, während Pretty-printed XML Einrückungen und Zeilenumbrüche für bessere Lesbarkeit nutzt.

Kann ich die XML-Deklarationszeile weglassen?

Ja, Sie können die Option 'XML-Deklaration Einbeziehen' deaktivieren, um das XML ohne die Header-Zeile zu generieren.

Gibt es eine Dateigrößenbeschränkung für den PDF-Upload?

Ja, das maximale Limit für den Upload einer PDF-Datei liegt bei 50 MB.

Werden meine PDF-Daten sicher verarbeitet?

Die Verarbeitung erfolgt sicher und temporär; Ihre hochgeladenen PDF-Dateien werden nach der Konvertierung nicht dauerhaft gespeichert.

API-Dokumentation

Request-Endpunkt

POST /de/api/tools/pdf-to-xml

Request-Parameter

Parameter-Name Typ Erforderlich Beschreibung
sourceFile file (Upload erforderlich) Ja -
outputMode select Nein -
includeDeclaration checkbox Nein -

Dateitypparameter müssen erst über POST /upload/pdf-to-xml hochgeladen werden, um filePath zu erhalten, dann filePath an das entsprechende Dateifeld übergeben.

Antwortformat

{
  "filePath": "/public/processing/randomid.ext",
  "fileName": "output.ext",
  "contentType": "application/octet-stream",
  "size": 1024,
  "metadata": {
    "key": "value"
  },
  "error": "Error message (optional)",
  "message": "Notification message (optional)"
}
Datei: Datei

MCP-Dokumentation

Fügen Sie dieses Tool zu Ihrer MCP-Server-Konfiguration hinzu:

{
  "mcpServers": {
    "elysiatools-pdf-to-xml": {
      "name": "pdf-to-xml",
      "description": "Konvertiert PDF-Dokumente in ein strukturiertes XML-Format mit erhaltener Inhaltshierarchie",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=pdf-to-xml",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Sie können mehrere Tools verketten, z.B.: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, maximal 20 Tools.

Unterstützt URL-Dateilinks oder Base64-Codierung für Dateiparameter.

Wenn Sie auf Probleme stoßen, kontaktieren Sie uns bitte bei [email protected]