PDF-zu-strukturiertem-Markdown-Konverter

Wandelt PDF mit OpenDataLoader in strukturiertes Markdown mit HTML-, Bild- und Seitentrenner-Optionen um

Nach dem Upload eines PDFs fuehrt das Tool OpenDataLoader aus und erzeugt strukturiertes Markdown. Sie koennen reines Markdown, Markdown mit HTML oder mit Bildreferenzen waehlen und zudem Zeilenumbrueche, Seitentrenner, Tagged-PDF-Struktur und Sanitizing steuern.

Beispielergebnisse

1 Beispiele

Brand-Guide-PDF in Markdown umwandeln

Das reale Sample erzeugte eine wiederverwendbare Markdown-Datei mit 596 Byte.

pdf-to-structured-markdown-converter-example1.md Datei anzeigen
Eingabeparameter anzeigen
{ "pdfFile": "/public/samples/pdf/brand-guidelines-pdf-example1.pdf", "markdownOutput": "markdown", "keepLineBreaks": true, "useStructTree": true, "includePageSeparators": true, "sanitizeSensitiveData": false, "pages": "" }

Click to upload file or drag and drop file here

Maximum file size: 10MB Supported formats: application/pdf

Wichtige Fakten

Kategorie
Entwicklung & Web
Eingabetypen
file, select, checkbox, text
Ausgabetyp
file
Sample-Abdeckung
4
API verfügbar
Yes

Überblick

Dieser PDF-zu-strukturiertem-Markdown-Konverter nutzt OpenDataLoader, um PDF-Dokumente präzise in sauberes Markdown-Format umzuwandeln. Sie können zwischen reinem Markdown, Markdown mit HTML-Elementen oder Bildreferenzen wählen und die Ausgabe durch Optionen wie Seitentrenner, Strukturbaum-Nutzung und Datenmaskierung exakt an Ihre Anforderungen anpassen.

Wann verwenden

  • Wenn Sie technische Handbücher oder Dokumentationen aus PDFs in ein modernes Wiki- oder CMS-System migrieren möchten.
  • Wenn Sie Textdaten aus PDFs für KI-Pipelines oder RAG-Systeme (Retrieval-Augmented Generation) aufbereiten müssen.
  • Wenn Sie bestimmte Seiten eines umfangreichen PDF-Berichts extrahieren und als strukturierte Textdatei weiterverarbeiten wollen.

So funktioniert es

  • Laden Sie Ihre PDF-Datei über das Upload-Feld hoch.
  • Wählen Sie das gewünschte Ausgabeformat (reines Markdown, mit HTML oder mit Bildern) und definieren Sie bei Bedarf spezifische Seiten.
  • Aktivieren Sie zusätzliche Optionen wie Seitentrenner, Beibehaltung von Zeilenumbrüchen oder die Maskierung sensibler Daten.
  • Starten Sie die Konvertierung und laden Sie die fertige Markdown-Datei herunter.

Anwendungsfälle

Migration von alten PDF-Whitepapers in ein modernes, Markdown-basiertes Dokumentationssystem wie Docusaurus oder Hugo.
Aufbereitung von Geschäftsberichten für Large Language Models (LLMs), indem das PDF in sauberen, maschinenlesbaren Text umgewandelt wird.
Extrahieren von Texten aus Markenrichtlinien (Brand Guides) zur schnellen Wiederverwendung in internen Firmen-Wikis.

Beispiele

1. Brand-Guide-PDF in Markdown umwandeln

Content Manager
Hintergrund
Ein Content Manager muss die textlichen Inhalte eines PDF-Brand-Guides in das interne Firmen-Wiki übertragen.
Problem
Manuelles Kopieren und Einfügen aus dem PDF zerstört die Formatierung und ist fehleranfällig.
Verwendung
Laden Sie das Brand-Guide-PDF hoch, wählen Sie 'Reines Markdown' und aktivieren Sie 'Strukturbaum verwenden'.
Beispielkonfiguration
markdownOutput: "markdown", useStructTree: true, includePageSeparators: true
Ergebnis
Eine saubere Markdown-Datei, die Überschriften und Absätze korrekt strukturiert und direkt in das Wiki eingefügt werden kann.

2. Vertrauliche Berichte für KI-Training aufbereiten

Data Engineer
Hintergrund
Ein Data Engineer bereitet interne PDF-Berichte für eine RAG-Pipeline vor, die sensible Kundendaten enthalten.
Problem
Die PDFs müssen in maschinenlesbaren Text umgewandelt werden, ohne dass personenbezogene Daten in die KI fließen.
Verwendung
Laden Sie den Bericht hoch, wählen Sie die relevanten Seiten aus und aktivieren Sie 'Sensible Daten maskieren'.
Beispielkonfiguration
pages: "1-15", sanitizeSensitiveData: true, markdownOutput: "markdown"
Ergebnis
Ein bereinigtes Markdown-Dokument der ersten 15 Seiten, bei dem sensible Daten maskiert sind, ideal für das KI-Training.

Mit Samples testen

html, markdown, pdf

Verwandte Hubs

FAQ

Kann ich nur bestimmte Seiten des PDFs konvertieren?

Ja, Sie können im Feld 'Seiten' spezifische Seitenzahlen oder Bereiche (z. B. 1,3,5-7) angeben.

Werden Bilder aus dem PDF übernommen?

Wenn Sie die Option 'Markdown mit Bildern' wählen, werden Bildreferenzen in die Markdown-Ausgabe integriert.

Was bewirkt die Option 'Strukturbaum verwenden'?

Sie nutzt die internen Tags des PDFs (Tagged PDF), um Überschriften, Absätze und Listen im Markdown präziser abzubilden.

Können sensible Daten automatisch unkenntlich gemacht werden?

Ja, durch Aktivierung der Option 'Sensible Daten maskieren' werden vertrauliche Informationen im Text bereinigt.

Bleiben die ursprünglichen Seitenumbrüche erhalten?

Ja, wenn Sie 'Seitentrenner einfügen' aktivieren, werden visuelle Trennlinien zwischen den PDF-Seiten im Markdown generiert.

API-Dokumentation

Request-Endpunkt

POST /de/api/tools/pdf-to-structured-markdown-converter

Request-Parameter

Parameter-Name Typ Erforderlich Beschreibung
pdfFile file (Upload erforderlich) Ja -
markdownOutput select Nein -
keepLineBreaks checkbox Nein -
useStructTree checkbox Nein -
includePageSeparators checkbox Nein -
sanitizeSensitiveData checkbox Nein -
pages text Nein -

Dateitypparameter müssen erst über POST /upload/pdf-to-structured-markdown-converter hochgeladen werden, um filePath zu erhalten, dann filePath an das entsprechende Dateifeld übergeben.

Antwortformat

{
  "filePath": "/public/processing/randomid.ext",
  "fileName": "output.ext",
  "contentType": "application/octet-stream",
  "size": 1024,
  "metadata": {
    "key": "value"
  },
  "error": "Error message (optional)",
  "message": "Notification message (optional)"
}
Datei: Datei

MCP-Dokumentation

Fügen Sie dieses Tool zu Ihrer MCP-Server-Konfiguration hinzu:

{
  "mcpServers": {
    "elysiatools-pdf-to-structured-markdown-converter": {
      "name": "pdf-to-structured-markdown-converter",
      "description": "Wandelt PDF mit OpenDataLoader in strukturiertes Markdown mit HTML-, Bild- und Seitentrenner-Optionen um",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=pdf-to-structured-markdown-converter",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Sie können mehrere Tools verketten, z.B.: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, maximal 20 Tools.

Unterstützt URL-Dateilinks oder Base64-Codierung für Dateiparameter.

Wenn Sie auf Probleme stoßen, kontaktieren Sie uns bitte bei [email protected]