Couche texte OCR PDF

Ajoute une couche OCR a un PDF scanne pour le rendre recherchable et copiable

Convertit les pages PDF en images, lance Tesseract page par page puis fusionne en PDF OCR recherchable.

Exemples de résultats

2 Exemples

Couche OCR standard

Ajoute une couche OCR anglaise a 300 DPI avec segmentation par defaut

pdf-ocr-text-layer-example1.pdf Voir fichier
Voir paramètres d'entrée
{ "sourceFile": "/Users/quyue/www/elysia-tools/public/samples/pdf/pdf-2026-02-19-source-4pages.pdf", "language": "eng", "dpi": 300, "oem": 1, "psm": 3 }

OCR rapide a DPI reduit

Utilise 200 DPI et psm=6 pour accelerer le traitement et reduire la taille

pdf-ocr-text-layer-example2.pdf Voir fichier
Voir paramètres d'entrée
{ "sourceFile": "/Users/quyue/www/elysia-tools/public/samples/pdf/pdf-2026-02-19-source-4pages.pdf", "language": "eng", "dpi": 200, "oem": 1, "psm": 6 }

Click to upload file or drag and drop file here

Maximum file size: 500MB Supported formats: application/pdf

Points clés

Catégorie
Documents et PDF
Types d’entrée
file, text, number
Type de sortie
file
Couverture des échantillons
4
API disponible
Yes

Vue d’ensemble

Transformez vos documents PDF numérisés en fichiers intelligents grâce à notre outil de reconnaissance optique de caractères (OCR), qui ajoute une couche de texte invisible permettant la recherche et la sélection de contenu.

Quand l’utiliser

  • Rendre des documents numérisés ou des archives papier indexables par les moteurs de recherche.
  • Extraire facilement du texte depuis des factures, contrats ou rapports scannés.
  • Faciliter la copie de passages spécifiques dans des documents PDF qui ne sont que des images.

Comment ça marche

  • Téléversez votre fichier PDF scanné dans l'outil.
  • Configurez les paramètres de langue et de résolution (DPI) pour optimiser la précision de la reconnaissance.
  • Le moteur Tesseract analyse chaque page, identifie les caractères et génère une nouvelle version du PDF avec une couche texte intégrée.

Cas d’usage

Numérisation d'archives administratives pour faciliter la recherche documentaire.
Conversion de contrats scannés en documents éditables pour extraire des clauses spécifiques.
Indexation de livres ou de revues anciennes pour permettre la recherche par mots-clés.

Exemples

1. Archivage de documents officiels

Assistant administratif
Contexte
Un cabinet possède des centaines de contrats scannés sous forme d'images, rendant la recherche d'informations impossible.
Problème
Besoin de rendre ces documents recherchables pour retrouver rapidement des clauses spécifiques.
Comment l’utiliser
Téléverser le PDF, définir la langue sur 'fra' et lancer l'OCR avec 300 DPI.
Configuration d’exemple
language: fra, dpi: 300, oem: 1, psm: 3
Résultat
Le PDF devient entièrement indexable, permettant de retrouver n'importe quel terme via la fonction 'Rechercher' du lecteur PDF.

2. Optimisation de rapports volumineux

Chercheur
Contexte
Un rapport de recherche très long doit être traité rapidement pour une lecture sur tablette.
Problème
Le fichier est trop lourd et le traitement OCR standard est trop lent.
Comment l’utiliser
Utiliser un DPI réduit et un mode de segmentation spécifique pour accélérer le processus.
Configuration d’exemple
language: eng, dpi: 200, oem: 1, psm: 6
Résultat
Le PDF est traité plus rapidement avec une taille de fichier optimisée tout en conservant une excellente lisibilité du texte.

Tester avec des échantillons

pdf, text, file

Hubs associés

FAQ

Qu'est-ce qu'une couche texte OCR ?

C'est une couche invisible ajoutée au-dessus de l'image de votre PDF qui contient le texte reconnu, permettant ainsi de le sélectionner, de le copier et de faire des recherches.

Quelle résolution DPI dois-je choisir ?

Une résolution de 300 DPI est recommandée pour un équilibre optimal entre la qualité de la reconnaissance et la taille du fichier final.

Puis-je traiter des documents dans plusieurs langues ?

Oui, vous pouvez spécifier plusieurs langues dans le champ dédié en utilisant le format approprié (ex: eng+fra).

Le fichier original est-il modifié ?

L'outil génère un nouveau fichier PDF enrichi ; votre document source reste intact.

Quelles sont les limites de taille de fichier ?

L'outil accepte des fichiers PDF jusqu'à 500 Mo pour le traitement.

Documentation de l'API

Point de terminaison de la requête

POST /fr/api/tools/pdf-ocr-text-layer

Paramètres de la requête

Nom du paramètre Type Requis Description
sourceFile file (Téléchargement requis) Oui -
language text Non -
dpi number Non -
oem number Non -
psm number Non -

Les paramètres de type fichier doivent être téléchargés d'abord via POST /upload/pdf-ocr-text-layer pour obtenir filePath, puis filePath doit être passé au champ de fichier correspondant.

Format de réponse

{
  "filePath": "/public/processing/randomid.ext",
  "fileName": "output.ext",
  "contentType": "application/octet-stream",
  "size": 1024,
  "metadata": {
    "key": "value"
  },
  "error": "Error message (optional)",
  "message": "Notification message (optional)"
}
Fichier: Fichier

Documentation de MCP

Ajoutez cet outil à votre configuration de serveur MCP:

{
  "mcpServers": {
    "elysiatools-pdf-ocr-text-layer": {
      "name": "pdf-ocr-text-layer",
      "description": "Ajoute une couche OCR a un PDF scanne pour le rendre recherchable et copiable",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=pdf-ocr-text-layer",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Vous pouvez chaîner plusieurs outils, par ex.: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, max 20 outils.

Prend en charge les liens de fichiers URL ou la codification Base64 pour les paramètres de fichier.

Si vous rencontrez des problèmes, veuillez nous contacter à [email protected]