Wichtige Fakten
- Kategorie
- Dokumente & PDF
- Eingabetypen
- file, select, number, text
- Ausgabetyp
- file
- Sample-Abdeckung
- 4
- API verfügbar
- Yes
Überblick
Das Online-Tool „PDF Entrauschen“ entfernt störendes visuelles Rauschen wie Salz-und-Pfeffer-Flecken, Bildkörnung und graue Hintergrundschleier aus eingescannten PDF-Dokumenten. Dank einer intelligenten, inhaltsadaptiven Verarbeitung werden reine Bildseiten mithilfe echter Bildverarbeitungsalgorithmen bereinigt, während durchsuchbare Vektortexte und Schriftarten standardmäßig unberührt und vollständig erhalten bleiben.
Wann verwenden
- •Wenn eingescannte Dokumente störende Flecken, Bildrauschen oder graue Schleier aufweisen, die die Lesbarkeit beeinträchtigen.
- •Wenn Sie die visuelle Qualität von Scans optimieren möchten, ohne die Durchsuchbarkeit von bereits vorhandenem Vektor-Text zu verlieren.
- •Vor einer Texterkennung (OCR), um durch Binarisierung den Kontrast zwischen Text und Hintergrund drastisch zu erhöhen.
So funktioniert es
- •Sie laden Ihre PDF-Datei hoch und wählen den gewünschten Entrauschungsmodus (Auto, Median oder Binarisieren) sowie optional den Seitenbereich aus.
- •Das Tool analysiert jede Seite: Reine Textseiten werden übersprungen, um Vektoren zu schützen, während Bildseiten gerastert werden.
- •Auf den Bildseiten entfernen mathematische Filter (wie der 3x3-Medianfilter oder der Otsu-Schwellenwert) Bildrauschen und Flecken direkt im Browser.
- •Die bereinigten Seiten werden wieder in ein neues, optimiertes PDF-Dokument zusammengeführt und zum Download bereitgestellt.
Anwendungsfälle
Beispiele
1. Automatische Bereinigung eines verrauschten Scans
Archivar- Hintergrund
- Ein Archivmitarbeiter hat historische Dokumente eingescannt, die nun feine Flecken und ein störendes Rauschen aufweisen.
- Problem
- Die Flecken stören das Gesamtbild und machen das Lesen am Bildschirm anstrengend.
- Verwendung
- Die PDF-Datei hochladen, den Modus 'Auto (Median + Fleckentfernung)' wählen und die Stärke auf 2 belassen.
- Beispielkonfiguration
-
mode: "auto", strength: 2, rasterizeText: "false" - Ergebnis
- Das Rauschen und kleine Flecken werden entfernt, während die Lesbarkeit der Dokumente deutlich verbessert wird.
2. Kontrastoptimierung für OCR-Texterkennung
Student- Hintergrund
- Ein Student hat Vorlesungsskripte mit dem Smartphone abfotografiert. Die Seiten haben graue Schatten und ungleichmäßige Belichtung.
- Problem
- Die OCR-Software kann den Text aufgrund des grauen Hintergrunds und der Schatten nicht fehlerfrei auslesen.
- Verwendung
- Das PDF hochladen, den Modus auf 'Binarisieren (Otsu)' stellen und die Verarbeitung starten.
- Beispielkonfiguration
-
mode: "binarize", rasterizeText: "false" - Ergebnis
- Der Hintergrund wird rein weiß und der Text tiefschwarz binarisiert, wodurch die OCR-Erkennungsrate maximiert wird.
Mit Samples testen
pdf, image, videoVerwandte Hubs
FAQ
Bleibt der Text in meinem PDF nach dem Entrauschen durchsuchbar?
Ja, standardmäßig werden echte Textseiten übersprungen, sodass Vektortexte und deren Durchsuchbarkeit vollständig erhalten bleiben.
Was bewirkt die Option „Textseiten rastern“?
Sie erzwingt das Entrauschen von Seiten, die zwar eine unsichtbare OCR-Textebene haben, deren Hintergrundbild jedoch stark verrauscht ist.
Welcher Modus eignet sich am besten für verblasste Scans?
Der Modus „Binarisieren“ (Otsu-Schwellenwert) eignet sich ideal, da er graue Hintergründe rein weiß und Textzeichen tiefschwarz färbt.
Werden meine Dokumente auf einen Server hochgeladen?
Nein, die Verarbeitung erfolgt über eine reine JavaScript-Pipeline direkt in Ihrem Browser, ohne dass Ihre Daten extern gespeichert werden.
Wie wirkt sich die Einstellung „Stärke“ aus?
Sie bestimmt die Anzahl der Durchläufe des 3x3-Medianfilters (1 bis 3). Mehr Durchläufe entfernen mehr Rauschen, können das Bild aber leicht weichzeichnen.