PDF zu Text Erweitert

Erweiterter PDF-zu-Text-Konverter mit Seitenauswahl, Formatierungsoptionen und Metadatenextraktion

Erweiterte PDF-zu-Text-Konvertierung mit umfangreichen Anpassungsoptionen.

Beispielergebnisse

2 Beispiele

Text mit Seitenbereich extrahieren

Extrahiert Text aus bestimmten Seiten eines PDF-Dokuments

pdf-to-text-output.txt Datei anzeigen
Eingabeparameter anzeigen
{ "sourceFile": "/public/samples/pdf/document.pdf", "pageRange": "1-5,10", "outputFormat": "structured", "includeMetadata": true }

Als JSON exportieren

Exportiert den Inhalt und die Metadaten des PDF im JSON-Format

pdf-to-text-output.json Datei anzeigen
Eingabeparameter anzeigen
{ "sourceFile": "/public/samples/pdf/book.pdf", "outputFormat": "json", "includeMetadata": true, "pageRange": "all" }

Click to upload file or drag and drop file here

Maximum file size: 100MB Supported formats: application/pdf

Wichtige Fakten

Kategorie
Dokumente & PDF
Eingabetypen
file, text, select, checkbox
Ausgabetyp
file
Sample-Abdeckung
4
API verfügbar
Yes

Überblick

Mit dem Tool „PDF zu Text Erweitert“ konvertieren Sie PDF-Dokumente präzise in Text- oder JSON-Dateien. Sie können gezielt Seitenbereiche definieren, die Absatzstruktur beibehalten, Metadaten extrahieren und den Grad der Textbereinigung individuell anpassen.

Wann verwenden

  • Wenn Sie gezielt Text aus bestimmten Seitenbereichen eines umfangreichen PDF-Dokuments extrahieren möchten.
  • Wenn Sie PDF-Inhalte strukturiert oder im JSON-Format für die automatisierte Weiterverarbeitung benötigen.
  • Wenn Sie Text aus PDFs extrahieren und dabei Metadaten, Seitenzahlen oder Zeilennummern beibehalten oder entfernen möchten.

So funktioniert es

  • Laden Sie Ihre PDF-Datei über das Feld „PDF-Datei“ hoch.
  • Geben Sie optional den gewünschten Seitenbereich an und wählen Sie das Ausgabeformat sowie den Bereinigungsgrad.
  • Aktivieren oder deaktivieren Sie Optionen wie Metadaten, Seitenköpfe, Zeilennummern und Absatzstruktur.
  • Starten Sie die Konvertierung, um die bereinigte Text- oder JSON-Datei direkt herunterzuladen.

Anwendungsfälle

Extraktion von Text aus bestimmten Kapiteln wissenschaftlicher Arbeiten zur Zitatverwaltung.
Konvertierung von PDF-Berichten in das JSON-Format zur automatisierten Datenanalyse.
Bereinigung von gescannten Dokumenten-Texten unter Beibehaltung der Zeilennummern für rechtliche Prüfungen.

Beispiele

1. Gezielte Text-Extraktion aus Geschäftsberichten

Finanzanalyst
Hintergrund
Ein Analyst muss die Finanzdaten der Seiten 1 bis 5 sowie Seite 10 eines 100-seitigen PDF-Berichts analysieren.
Problem
Das manuelle Kopieren von Text aus bestimmten Seiten ist fehleranfällig und zeitaufwendig.
Verwendung
Er lädt den Bericht hoch, gibt bei Seitenbereich '1-5,10' ein und wählt das strukturierte Ausgabeformat.
Beispielkonfiguration
{
  "pageRange": "1-5,10",
  "outputFormat": "structured",
  "includeMetadata": true
}
Ergebnis
Er erhält eine strukturierte Textdatei, die ausschließlich den Inhalt der ausgewählten Seiten sowie die Metadaten des Dokuments enthält.

2. PDF-Inhalte für Datenbanken als JSON aufbereiten

Softwareentwickler
Hintergrund
Ein Entwickler muss Buchinhalte aus PDFs in eine Datenbank einpflegen.
Problem
Unstrukturierter Text lässt sich schwer parsen und maschinell verarbeiten.
Verwendung
Er lädt das PDF-Buch hoch, wählt als Ausgabeformat 'json' und aktiviert die Metadatenextraktion für alle Seiten.
Beispielkonfiguration
{
  "pageRange": "all",
  "outputFormat": "json",
  "includeMetadata": true
}
Ergebnis
Das Tool generiert eine JSON-Datei, die den Text strukturiert nach Seiten zusammen mit den Dokumenten-Metadaten liefert.

Mit Samples testen

pdf, text, barcode

Verwandte Hubs

FAQ

Welche Ausgabeformate werden unterstützt?

Das Tool unterstützt Plain Text (Klartext), Structured (strukturiert mit Trennzeichen) und JSON.

Kann ich nur bestimmte Seiten aus dem PDF extrahieren?

Ja, geben Sie den gewünschten Bereich im Feld „Seitenbereich“ an, zum Beispiel „1-5,7,10-12“.

Was bewirkt die Option „Textbereinigung“?

Sie entfernt unerwünschte Zeichen oder Formatierungsartefakte in den Stufen „Gentle“ (schonend), „Aggressive“ (stark) oder „None“ (keine).

Werden Metadaten des PDFs mitexportiert?

Ja, wenn Sie die Option „PDF-Metadaten Einbeziehen“ aktivieren, werden diese in der Ausgabedatei ausgegeben.

Kann ich die Absatzstruktur des Originaldokuments beibehalten?

Ja, aktivieren Sie dafür einfach die Option „Absatzstruktur Beibehalten“.

API-Dokumentation

Request-Endpunkt

POST /de/api/tools/pdf-to-text-advanced

Request-Parameter

Parameter-Name Typ Erforderlich Beschreibung
sourceFile file (Upload erforderlich) Ja -
pageRange text Nein -
outputFormat select Nein -
cleanLevel select Nein -
includeMetadata checkbox Nein -
includePageHeaders checkbox Nein -
includeLineNumbers checkbox Nein -
preserveParagraphStructure checkbox Nein -

Dateitypparameter müssen erst über POST /upload/pdf-to-text-advanced hochgeladen werden, um filePath zu erhalten, dann filePath an das entsprechende Dateifeld übergeben.

Antwortformat

{
  "filePath": "/public/processing/randomid.ext",
  "fileName": "output.ext",
  "contentType": "application/octet-stream",
  "size": 1024,
  "metadata": {
    "key": "value"
  },
  "error": "Error message (optional)",
  "message": "Notification message (optional)"
}
Datei: Datei

MCP-Dokumentation

Fügen Sie dieses Tool zu Ihrer MCP-Server-Konfiguration hinzu:

{
  "mcpServers": {
    "elysiatools-pdf-to-text-advanced": {
      "name": "pdf-to-text-advanced",
      "description": "Erweiterter PDF-zu-Text-Konverter mit Seitenauswahl, Formatierungsoptionen und Metadatenextraktion",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=pdf-to-text-advanced",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Sie können mehrere Tools verketten, z.B.: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, maximal 20 Tools.

Unterstützt URL-Dateilinks oder Base64-Codierung für Dateiparameter.

Wenn Sie auf Probleme stoßen, kontaktieren Sie uns bitte bei [email protected]