Points clés
- Catégorie
- Documents et PDF
- Types d’entrée
- file, select, number, text
- Type de sortie
- file
- Couverture des échantillons
- 4
- API disponible
- Yes
Vue d’ensemble
Cet outil en ligne permet de nettoyer et de réduire le bruit visuel des documents PDF numérisés en appliquant des algorithmes de traitement d'image performants, tout en préservant le texte vectoriel consultable des pages non numérisées.
Quand l’utiliser
- •Lorsque vous disposez de documents PDF numérisés contenant du bruit de type poivre et sel ou des grains aléatoires qui nuisent à la lecture.
- •Pour blanchir les arrière-plans grisâtres ou sombres de scans de mauvaise qualité afin d'améliorer le contraste du texte.
- •Avant de soumettre un PDF à un moteur d'OCR externe afin d'optimiser la précision de la reconnaissance de caractères.
Comment ça marche
- •Sélectionnez et téléchargez votre fichier PDF à traiter.
- •Choisissez le mode de réduction de bruit adapté : Auto pour un nettoyage équilibré, Filtre médian pour le bruit impulsionnel, ou Binariser pour un rendu noir et blanc net via le seuil d'Otsu.
- •Définissez si nécessaire l'intensité du filtre (nombre de passes) et la plage de pages spécifique à traiter.
- •L'outil applique les filtres d'image sur les pages rasterisées tout en conservant intactes les pages de texte vectoriel d'origine.
Cas d’usage
Exemples
1. Nettoyage automatique d'un rapport numérisé bruité
Archiviste- Contexte
- Un archiviste doit intégrer un rapport numérisé dans une base de données, mais les pages d'images contiennent beaucoup de bruit de numérisation.
- Problème
- Le bruit visuel rend la lecture inconfortable et augmente inutilement la taille visuelle du fichier.
- Comment l’utiliser
- Téléchargez le PDF, sélectionnez le mode 'Auto' avec une intensité de 2 passes, et lancez le traitement.
- Configuration d’exemple
-
mode: "auto", strength: 2, rasterizeText: "false" - Résultat
- Les pages d'images sont nettoyées des taches isolées tandis que les pages de garde textuelles restent parfaitement nettes et consultables.
2. Binarisation d'un contrat pâle pour impression
Assistant juridique- Contexte
- Un assistant juridique reçoit un scan de contrat très pâle avec un fond grisâtre difficile à lire et à imprimer proprement.
- Problème
- L'impression consomme trop d'encre à cause du fond gris et le texte manque de contraste.
- Comment l’utiliser
- Importez le document, choisissez le mode 'Binariser' (Otsu) pour les pages 1 à 3.
- Configuration d’exemple
-
mode: "binarize", pageRange: "1-3", rasterizeText: "false" - Résultat
- Le fond gris devient blanc pur et le texte devient noir uni, offrant un contraste maximal pour une impression économique et lisible.
Tester avec des échantillons
pdf, image, videoHubs associés
FAQ
Est-ce que mes pages de texte consultables vont perdre leur qualité ?
Non, par défaut, les pages contenant du texte vectoriel sont copiées telles quelles sans modification pour préserver la recherche et les polices.
Comment forcer le nettoyage d'un PDF qui contient déjà une couche OCR ?
Activez l'option 'Rasteriser les pages de texte' pour forcer le traitement d'image sur l'ensemble du document.
Quelle est la différence entre le mode Médian et le mode Binariser ?
Le filtre médian atténue le bruit tout en préservant les nuances de gris, tandis que la binarisation transforme le document en noir et blanc pur.
Puis-je traiter uniquement certaines pages d'un long document ?
Oui, utilisez le champ 'Plage de pages' pour spécifier les pages exactes à débruiter (par exemple, '1-3,5').
Quelle intensité de filtre médian dois-je choisir ?
Une intensité de 2 passes est recommandée par défaut ; augmentez à 3 pour les bruits très prononcés, au risque d'adoucir légèrement l'image.