PDF OCR-Textebene

Fuegt gescannten PDFs eine OCR-Textebene fuer Suche und Kopieren hinzu

Rastert PDF-Seiten zu Bildern, fuehrt Tesseract pro Seite aus und fuegt alles als durchsuchbares OCR-PDF zusammen.

Beispielergebnisse

2 Beispiele

Standard-OCR-Textebene

Erzeugt durchsuchbares PDF mit englischem OCR, 300 DPI und Standardsegmentierung

pdf-ocr-text-layer-example1.pdf Datei anzeigen
Eingabeparameter anzeigen
{ "sourceFile": "/Users/quyue/www/elysia-tools/public/samples/pdf/pdf-2026-02-19-source-4pages.pdf", "language": "eng", "dpi": 300, "oem": 1, "psm": 3 }

Schnelles OCR mit niedriger DPI

Verwendet 200 DPI und psm=6 fuer schnellere OCR-Laufzeit und kleinere Datei

pdf-ocr-text-layer-example2.pdf Datei anzeigen
Eingabeparameter anzeigen
{ "sourceFile": "/Users/quyue/www/elysia-tools/public/samples/pdf/pdf-2026-02-19-source-4pages.pdf", "language": "eng", "dpi": 200, "oem": 1, "psm": 6 }

Click to upload file or drag and drop file here

Maximum file size: 500MB Supported formats: application/pdf

Wichtige Fakten

Kategorie
Dokumente & PDF
Eingabetypen
file, text, number
Ausgabetyp
file
Sample-Abdeckung
4
API verfügbar
Yes

Überblick

Verwandeln Sie statische, gescannte PDF-Dokumente in vollständig durchsuchbare und bearbeitbare Dateien, indem Sie mithilfe leistungsstarker OCR-Technologie eine unsichtbare Textebene hinzufügen.

Wann verwenden

  • Wenn Sie Text aus einem reinen Bild-PDF kopieren oder zitieren müssen.
  • Wenn Sie große Mengen gescannter Dokumente nach bestimmten Begriffen durchsuchen möchten.
  • Wenn Sie Archiv-Scans für eine digitale Dokumentenverwaltung aufbereiten wollen.

So funktioniert es

  • Laden Sie Ihr gescanntes PDF-Dokument hoch.
  • Passen Sie bei Bedarf die DPI-Auflösung und den Segmentierungsmodus (PSM) an.
  • Das Tool rastert die Seiten, erkennt den Text mittels Tesseract und bettet eine durchsuchbare Ebene ein.
  • Laden Sie Ihr neues, OCR-optimiertes PDF direkt herunter.

Anwendungsfälle

Digitalisierung von alten Papierakten für die Volltextsuche.
Extrahieren von Daten aus gescannten Rechnungen oder Verträgen.
Vorbereitung von wissenschaftlichen Scans für die Zitat-Erstellung.

Beispiele

1. Standard-OCR für Archivdokumente

Hintergrund
Ein Benutzer hat ein 4-seitiges, gescanntes Dokument, das bisher nur als Bild vorliegt.
Problem
Der Text im Dokument kann nicht durchsucht oder kopiert werden.
Verwendung
PDF hochladen, Standardeinstellungen (300 DPI, PSM 3) beibehalten und OCR starten.
Beispielkonfiguration
dpi: 300, psm: 3, language: eng
Ergebnis
Ein durchsuchbares PDF, in dem Text markiert und kopiert werden kann.

2. Schnelle OCR für einfache Scans

Hintergrund
Ein Benutzer muss eine große Anzahl an Dokumenten schnell verarbeiten.
Problem
Die Standardverarbeitung dauert zu lange und erzeugt zu große Dateien.
Verwendung
DPI auf 200 reduzieren und den Segmentierungsmodus auf 6 für eine schnellere Analyse setzen.
Beispielkonfiguration
dpi: 200, psm: 6, language: eng
Ergebnis
Ein kleineres, durchsuchbares PDF, das deutlich schneller erstellt wurde.

Mit Samples testen

pdf, text, file

Verwandte Hubs

FAQ

Was ist eine OCR-Textebene?

Es ist eine unsichtbare Schicht über dem Bild Ihres Scans, die den erkannten Text enthält und so das Suchen und Markieren ermöglicht.

Welche DPI-Einstellung ist empfehlenswert?

Für eine präzise Texterkennung sind 300 DPI der Standardwert, der ein optimales Gleichgewicht zwischen Qualität und Verarbeitungszeit bietet.

Kann ich mehrere Sprachen gleichzeitig erkennen?

Ja, Sie können Sprachen kombinieren, indem Sie diese im Feld 'OCR-Sprachen' mit einem Pluszeichen trennen (z. B. 'deu+eng').

Warum ist die Dateigröße nach der OCR-Verarbeitung anders?

Die Dateigröße kann sich leicht ändern, da eine zusätzliche Textebene in das PDF eingebettet wird.

Gibt es eine Begrenzung für die Dateigröße?

Ja, das Tool unterstützt PDF-Dateien bis zu einer Größe von 500 MB.

API-Dokumentation

Request-Endpunkt

POST /de/api/tools/pdf-ocr-text-layer

Request-Parameter

Parameter-Name Typ Erforderlich Beschreibung
sourceFile file (Upload erforderlich) Ja -
language text Nein -
dpi number Nein -
oem number Nein -
psm number Nein -

Dateitypparameter müssen erst über POST /upload/pdf-ocr-text-layer hochgeladen werden, um filePath zu erhalten, dann filePath an das entsprechende Dateifeld übergeben.

Antwortformat

{
  "filePath": "/public/processing/randomid.ext",
  "fileName": "output.ext",
  "contentType": "application/octet-stream",
  "size": 1024,
  "metadata": {
    "key": "value"
  },
  "error": "Error message (optional)",
  "message": "Notification message (optional)"
}
Datei: Datei

MCP-Dokumentation

Fügen Sie dieses Tool zu Ihrer MCP-Server-Konfiguration hinzu:

{
  "mcpServers": {
    "elysiatools-pdf-ocr-text-layer": {
      "name": "pdf-ocr-text-layer",
      "description": "Fuegt gescannten PDFs eine OCR-Textebene fuer Suche und Kopieren hinzu",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=pdf-ocr-text-layer",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Sie können mehrere Tools verketten, z.B.: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, maximal 20 Tools.

Unterstützt URL-Dateilinks oder Base64-Codierung für Dateiparameter.

Wenn Sie auf Probleme stoßen, kontaktieren Sie uns bitte bei [email protected]