Wichtige Fakten
- Kategorie
- Dokumente & PDF
- Eingabetypen
- file, text, select, checkbox
- Ausgabetyp
- file
- Sample-Abdeckung
- 4
- API verfügbar
- Yes
Überblick
Mit dem Tool „PDF zu Text Erweitert“ konvertieren Sie PDF-Dokumente präzise in Text- oder JSON-Dateien. Sie können gezielt Seitenbereiche definieren, die Absatzstruktur beibehalten, Metadaten extrahieren und den Grad der Textbereinigung individuell anpassen.
Wann verwenden
- •Wenn Sie gezielt Text aus bestimmten Seitenbereichen eines umfangreichen PDF-Dokuments extrahieren möchten.
- •Wenn Sie PDF-Inhalte strukturiert oder im JSON-Format für die automatisierte Weiterverarbeitung benötigen.
- •Wenn Sie Text aus PDFs extrahieren und dabei Metadaten, Seitenzahlen oder Zeilennummern beibehalten oder entfernen möchten.
So funktioniert es
- •Laden Sie Ihre PDF-Datei über das Feld „PDF-Datei“ hoch.
- •Geben Sie optional den gewünschten Seitenbereich an und wählen Sie das Ausgabeformat sowie den Bereinigungsgrad.
- •Aktivieren oder deaktivieren Sie Optionen wie Metadaten, Seitenköpfe, Zeilennummern und Absatzstruktur.
- •Starten Sie die Konvertierung, um die bereinigte Text- oder JSON-Datei direkt herunterzuladen.
Anwendungsfälle
Beispiele
1. Gezielte Text-Extraktion aus Geschäftsberichten
Finanzanalyst- Hintergrund
- Ein Analyst muss die Finanzdaten der Seiten 1 bis 5 sowie Seite 10 eines 100-seitigen PDF-Berichts analysieren.
- Problem
- Das manuelle Kopieren von Text aus bestimmten Seiten ist fehleranfällig und zeitaufwendig.
- Verwendung
- Er lädt den Bericht hoch, gibt bei Seitenbereich '1-5,10' ein und wählt das strukturierte Ausgabeformat.
- Beispielkonfiguration
-
{ "pageRange": "1-5,10", "outputFormat": "structured", "includeMetadata": true } - Ergebnis
- Er erhält eine strukturierte Textdatei, die ausschließlich den Inhalt der ausgewählten Seiten sowie die Metadaten des Dokuments enthält.
2. PDF-Inhalte für Datenbanken als JSON aufbereiten
Softwareentwickler- Hintergrund
- Ein Entwickler muss Buchinhalte aus PDFs in eine Datenbank einpflegen.
- Problem
- Unstrukturierter Text lässt sich schwer parsen und maschinell verarbeiten.
- Verwendung
- Er lädt das PDF-Buch hoch, wählt als Ausgabeformat 'json' und aktiviert die Metadatenextraktion für alle Seiten.
- Beispielkonfiguration
-
{ "pageRange": "all", "outputFormat": "json", "includeMetadata": true } - Ergebnis
- Das Tool generiert eine JSON-Datei, die den Text strukturiert nach Seiten zusammen mit den Dokumenten-Metadaten liefert.
Mit Samples testen
pdf, text, barcodeVerwandte Hubs
FAQ
Welche Ausgabeformate werden unterstützt?
Das Tool unterstützt Plain Text (Klartext), Structured (strukturiert mit Trennzeichen) und JSON.
Kann ich nur bestimmte Seiten aus dem PDF extrahieren?
Ja, geben Sie den gewünschten Bereich im Feld „Seitenbereich“ an, zum Beispiel „1-5,7,10-12“.
Was bewirkt die Option „Textbereinigung“?
Sie entfernt unerwünschte Zeichen oder Formatierungsartefakte in den Stufen „Gentle“ (schonend), „Aggressive“ (stark) oder „None“ (keine).
Werden Metadaten des PDFs mitexportiert?
Ja, wenn Sie die Option „PDF-Metadaten Einbeziehen“ aktivieren, werden diese in der Ausgabedatei ausgegeben.
Kann ich die Absatzstruktur des Originaldokuments beibehalten?
Ja, aktivieren Sie dafür einfach die Option „Absatzstruktur Beibehalten“.