Wichtige Fakten
- Kategorie
- Dokumente & PDF
- Eingabetypen
- file, text, number
- Ausgabetyp
- file
- Sample-Abdeckung
- 4
- API verfügbar
- Yes
Überblick
Verwandeln Sie statische, gescannte PDF-Dokumente in vollständig durchsuchbare und bearbeitbare Dateien, indem Sie mithilfe leistungsstarker OCR-Technologie eine unsichtbare Textebene hinzufügen.
Wann verwenden
- •Wenn Sie Text aus einem reinen Bild-PDF kopieren oder zitieren müssen.
- •Wenn Sie große Mengen gescannter Dokumente nach bestimmten Begriffen durchsuchen möchten.
- •Wenn Sie Archiv-Scans für eine digitale Dokumentenverwaltung aufbereiten wollen.
So funktioniert es
- •Laden Sie Ihr gescanntes PDF-Dokument hoch.
- •Passen Sie bei Bedarf die DPI-Auflösung und den Segmentierungsmodus (PSM) an.
- •Das Tool rastert die Seiten, erkennt den Text mittels Tesseract und bettet eine durchsuchbare Ebene ein.
- •Laden Sie Ihr neues, OCR-optimiertes PDF direkt herunter.
Anwendungsfälle
Beispiele
1. Standard-OCR für Archivdokumente
- Hintergrund
- Ein Benutzer hat ein 4-seitiges, gescanntes Dokument, das bisher nur als Bild vorliegt.
- Problem
- Der Text im Dokument kann nicht durchsucht oder kopiert werden.
- Verwendung
- PDF hochladen, Standardeinstellungen (300 DPI, PSM 3) beibehalten und OCR starten.
- Beispielkonfiguration
-
dpi: 300, psm: 3, language: eng - Ergebnis
- Ein durchsuchbares PDF, in dem Text markiert und kopiert werden kann.
2. Schnelle OCR für einfache Scans
- Hintergrund
- Ein Benutzer muss eine große Anzahl an Dokumenten schnell verarbeiten.
- Problem
- Die Standardverarbeitung dauert zu lange und erzeugt zu große Dateien.
- Verwendung
- DPI auf 200 reduzieren und den Segmentierungsmodus auf 6 für eine schnellere Analyse setzen.
- Beispielkonfiguration
-
dpi: 200, psm: 6, language: eng - Ergebnis
- Ein kleineres, durchsuchbares PDF, das deutlich schneller erstellt wurde.
Mit Samples testen
pdf, text, fileVerwandte Hubs
FAQ
Was ist eine OCR-Textebene?
Es ist eine unsichtbare Schicht über dem Bild Ihres Scans, die den erkannten Text enthält und so das Suchen und Markieren ermöglicht.
Welche DPI-Einstellung ist empfehlenswert?
Für eine präzise Texterkennung sind 300 DPI der Standardwert, der ein optimales Gleichgewicht zwischen Qualität und Verarbeitungszeit bietet.
Kann ich mehrere Sprachen gleichzeitig erkennen?
Ja, Sie können Sprachen kombinieren, indem Sie diese im Feld 'OCR-Sprachen' mit einem Pluszeichen trennen (z. B. 'deu+eng').
Warum ist die Dateigröße nach der OCR-Verarbeitung anders?
Die Dateigröße kann sich leicht ändern, da eine zusätzliche Textebene in das PDF eingebettet wird.
Gibt es eine Begrenzung für die Dateigröße?
Ja, das Tool unterstützt PDF-Dateien bis zu einer Größe von 500 MB.