Wichtige Fakten
- Kategorie
- Entwicklung & Web
- Eingabetypen
- file, select, checkbox, text
- Ausgabetyp
- file
- Sample-Abdeckung
- 4
- API verfügbar
- Yes
Überblick
Dieser PDF-zu-strukturiertem-Markdown-Konverter nutzt OpenDataLoader, um PDF-Dokumente präzise in sauberes Markdown-Format umzuwandeln. Sie können zwischen reinem Markdown, Markdown mit HTML-Elementen oder Bildreferenzen wählen und die Ausgabe durch Optionen wie Seitentrenner, Strukturbaum-Nutzung und Datenmaskierung exakt an Ihre Anforderungen anpassen.
Wann verwenden
- •Wenn Sie technische Handbücher oder Dokumentationen aus PDFs in ein modernes Wiki- oder CMS-System migrieren möchten.
- •Wenn Sie Textdaten aus PDFs für KI-Pipelines oder RAG-Systeme (Retrieval-Augmented Generation) aufbereiten müssen.
- •Wenn Sie bestimmte Seiten eines umfangreichen PDF-Berichts extrahieren und als strukturierte Textdatei weiterverarbeiten wollen.
So funktioniert es
- •Laden Sie Ihre PDF-Datei über das Upload-Feld hoch.
- •Wählen Sie das gewünschte Ausgabeformat (reines Markdown, mit HTML oder mit Bildern) und definieren Sie bei Bedarf spezifische Seiten.
- •Aktivieren Sie zusätzliche Optionen wie Seitentrenner, Beibehaltung von Zeilenumbrüchen oder die Maskierung sensibler Daten.
- •Starten Sie die Konvertierung und laden Sie die fertige Markdown-Datei herunter.
Anwendungsfälle
Beispiele
1. Brand-Guide-PDF in Markdown umwandeln
Content Manager- Hintergrund
- Ein Content Manager muss die textlichen Inhalte eines PDF-Brand-Guides in das interne Firmen-Wiki übertragen.
- Problem
- Manuelles Kopieren und Einfügen aus dem PDF zerstört die Formatierung und ist fehleranfällig.
- Verwendung
- Laden Sie das Brand-Guide-PDF hoch, wählen Sie 'Reines Markdown' und aktivieren Sie 'Strukturbaum verwenden'.
- Beispielkonfiguration
-
markdownOutput: "markdown", useStructTree: true, includePageSeparators: true - Ergebnis
- Eine saubere Markdown-Datei, die Überschriften und Absätze korrekt strukturiert und direkt in das Wiki eingefügt werden kann.
2. Vertrauliche Berichte für KI-Training aufbereiten
Data Engineer- Hintergrund
- Ein Data Engineer bereitet interne PDF-Berichte für eine RAG-Pipeline vor, die sensible Kundendaten enthalten.
- Problem
- Die PDFs müssen in maschinenlesbaren Text umgewandelt werden, ohne dass personenbezogene Daten in die KI fließen.
- Verwendung
- Laden Sie den Bericht hoch, wählen Sie die relevanten Seiten aus und aktivieren Sie 'Sensible Daten maskieren'.
- Beispielkonfiguration
-
pages: "1-15", sanitizeSensitiveData: true, markdownOutput: "markdown" - Ergebnis
- Ein bereinigtes Markdown-Dokument der ersten 15 Seiten, bei dem sensible Daten maskiert sind, ideal für das KI-Training.
Mit Samples testen
html, markdown, pdfVerwandte Hubs
FAQ
Kann ich nur bestimmte Seiten des PDFs konvertieren?
Ja, Sie können im Feld 'Seiten' spezifische Seitenzahlen oder Bereiche (z. B. 1,3,5-7) angeben.
Werden Bilder aus dem PDF übernommen?
Wenn Sie die Option 'Markdown mit Bildern' wählen, werden Bildreferenzen in die Markdown-Ausgabe integriert.
Was bewirkt die Option 'Strukturbaum verwenden'?
Sie nutzt die internen Tags des PDFs (Tagged PDF), um Überschriften, Absätze und Listen im Markdown präziser abzubilden.
Können sensible Daten automatisch unkenntlich gemacht werden?
Ja, durch Aktivierung der Option 'Sensible Daten maskieren' werden vertrauliche Informationen im Text bereinigt.
Bleiben die ursprünglichen Seitenumbrüche erhalten?
Ja, wenn Sie 'Seitentrenner einfügen' aktivieren, werden visuelle Trennlinien zwischen den PDF-Seiten im Markdown generiert.