Points clés
- Catégorie
- Documents et PDF
- Types d’entrée
- file, text, number
- Type de sortie
- file
- Couverture des échantillons
- 4
- API disponible
- Yes
Vue d’ensemble
Transformez vos documents PDF numérisés en fichiers intelligents grâce à notre outil de reconnaissance optique de caractères (OCR), qui ajoute une couche de texte invisible permettant la recherche et la sélection de contenu.
Quand l’utiliser
- •Rendre des documents numérisés ou des archives papier indexables par les moteurs de recherche.
- •Extraire facilement du texte depuis des factures, contrats ou rapports scannés.
- •Faciliter la copie de passages spécifiques dans des documents PDF qui ne sont que des images.
Comment ça marche
- •Téléversez votre fichier PDF scanné dans l'outil.
- •Configurez les paramètres de langue et de résolution (DPI) pour optimiser la précision de la reconnaissance.
- •Le moteur Tesseract analyse chaque page, identifie les caractères et génère une nouvelle version du PDF avec une couche texte intégrée.
Cas d’usage
Exemples
1. Archivage de documents officiels
Assistant administratif- Contexte
- Un cabinet possède des centaines de contrats scannés sous forme d'images, rendant la recherche d'informations impossible.
- Problème
- Besoin de rendre ces documents recherchables pour retrouver rapidement des clauses spécifiques.
- Comment l’utiliser
- Téléverser le PDF, définir la langue sur 'fra' et lancer l'OCR avec 300 DPI.
- Configuration d’exemple
-
language: fra, dpi: 300, oem: 1, psm: 3 - Résultat
- Le PDF devient entièrement indexable, permettant de retrouver n'importe quel terme via la fonction 'Rechercher' du lecteur PDF.
2. Optimisation de rapports volumineux
Chercheur- Contexte
- Un rapport de recherche très long doit être traité rapidement pour une lecture sur tablette.
- Problème
- Le fichier est trop lourd et le traitement OCR standard est trop lent.
- Comment l’utiliser
- Utiliser un DPI réduit et un mode de segmentation spécifique pour accélérer le processus.
- Configuration d’exemple
-
language: eng, dpi: 200, oem: 1, psm: 6 - Résultat
- Le PDF est traité plus rapidement avec une taille de fichier optimisée tout en conservant une excellente lisibilité du texte.
Tester avec des échantillons
pdf, text, fileHubs associés
FAQ
Qu'est-ce qu'une couche texte OCR ?
C'est une couche invisible ajoutée au-dessus de l'image de votre PDF qui contient le texte reconnu, permettant ainsi de le sélectionner, de le copier et de faire des recherches.
Quelle résolution DPI dois-je choisir ?
Une résolution de 300 DPI est recommandée pour un équilibre optimal entre la qualité de la reconnaissance et la taille du fichier final.
Puis-je traiter des documents dans plusieurs langues ?
Oui, vous pouvez spécifier plusieurs langues dans le champ dédié en utilisant le format approprié (ex: eng+fra).
Le fichier original est-il modifié ?
L'outil génère un nouveau fichier PDF enrichi ; votre document source reste intact.
Quelles sont les limites de taille de fichier ?
L'outil accepte des fichiers PDF jusqu'à 500 Mo pour le traitement.