OCR de PDF scanne vers Markdown

Convertit les PDF scannes ou bases sur image en Markdown, avec priorite au mode hybrid OCR et repli propre si le backend nest pas disponible

Apres le chargement dun PDF scanne, loutil tentera dabord OpenDataLoader hybrid OCR pour produire du Markdown ; si le backend hybrid nest pas disponible, il basculera automatiquement vers lextraction standard et indiquera clairement la raison dans les metadata.

Exemples de résultats

1 Exemples

Convertir un PDF OCR en Markdown

Le sample reel produit un Markdown reutilisable et utilise le chemin local pour rester reproductible dans le depot.

scanned-pdf-ocr-to-markdown-example1.md Voir fichier
Voir paramètres d'entrée
{ "pdfFile": "/public/samples/pdf/pdf-ocr-text-layer-example1.pdf", "pages": "", "keepLineBreaks": true, "includePageSeparators": true, "hybridBackendUrl": "", "preferHybridOcr": false }

Click to upload file or drag and drop file here

Maximum file size: 10MB Supported formats: application/pdf

Points clés

Catégorie
IA et générateurs
Types d’entrée
file, text, checkbox
Type de sortie
file
Couverture des échantillons
4
API disponible
Yes

Vue d’ensemble

Cet outil convertit les documents PDF scannés ou basés sur des images en fichiers Markdown structurés grâce à la technologie OCR hybride d'OpenDataLoader. Il assure une extraction textuelle précise tout en offrant un mécanisme de repli automatique vers l'extraction standard si le moteur hybride est indisponible.

Quand l’utiliser

  • Lorsque vous disposez de documents papier numérisés en PDF qui doivent être édités ou archivés au format texte.
  • Pour transformer des rapports contenant des images de texte en fichiers Markdown compatibles avec des outils de prise de notes.
  • Quand vous avez besoin d'extraire du texte de pages spécifiques d'un PDF volumineux tout en conservant la structure des pages.

Comment ça marche

  • Téléchargez votre fichier PDF scanné et spécifiez éventuellement les plages de pages à traiter dans le champ dédié.
  • L'outil tente une reconnaissance optique de caractères (OCR) via le moteur hybride pour interpréter les éléments visuels du document.
  • Le texte extrait est formaté en Markdown, avec des options pour conserver les sauts de ligne originaux et insérer des séparateurs de page.
  • Téléchargez le fichier .md final et vérifiez les métadonnées pour confirmer si le mode hybride ou le mode de repli a été utilisé.

Cas d’usage

Numérisation d'anciens contrats papier pour les intégrer dans une base de connaissances interne éditable.
Extraction de contenu textuel à partir de présentations ou de brochures sauvegardées sous forme d'images PDF.
Conversion de rapports administratifs scannés pour faciliter la recherche plein texte et l'indexation documentaire.

Exemples

1. Numérisation d'archives juridiques

Archiviste
Contexte
Un service juridique possède des centaines de contrats scannés en PDF sans couche de texte recherchable.
Problème
Impossible de copier-coller des clauses ou de rechercher des termes spécifiques dans les documents numérisés.
Comment l’utiliser
Charger le PDF du contrat, activer 'Préférer OCR hybride' et cocher 'Conserver les sauts de ligne'.
Résultat
Un fichier Markdown éditable où chaque clause est clairement lisible, permettant une recherche rapide et une réutilisation du texte.

2. Extraction de notes de recherche

Chercheur
Contexte
Un chercheur a photographié des pages de livres anciens et les a regroupées dans un fichier PDF unique.
Problème
La saisie manuelle des citations pour la rédaction d'un article est trop longue et sujette aux erreurs.
Comment l’utiliser
Uploader le PDF, spécifier les pages pertinentes (ex: 10-15) et activer les séparateurs de page pour identifier les sources.
Résultat
Un document Markdown organisé par page facilitant l'intégration directe des citations dans son logiciel de rédaction.

Tester avec des échantillons

markdown, pdf, image

Hubs associés

FAQ

Quels types de PDF sont supportés ?

L'outil traite les PDF scannés, les PDF basés sur des images et les documents numériques standards.

Que se passe-t-il si l'OCR hybride échoue ?

Le système bascule automatiquement vers une extraction standard et l'indique clairement dans les métadonnées.

Puis-je choisir les pages à convertir ?

Oui, vous pouvez définir des pages individuelles ou des plages comme '1,3,5-7' dans les options de configuration.

Le formatage original est-il conservé ?

L'outil génère du Markdown propre optimisé pour le texte ; la mise en page complexe peut être simplifiée pour la lisibilité.

Est-il possible de garder les sauts de ligne originaux ?

Oui, l'option 'Conserver les sauts de ligne' permet de maintenir la structure verticale du texte source.

Documentation de l'API

Point de terminaison de la requête

POST /fr/api/tools/scanned-pdf-ocr-to-markdown

Paramètres de la requête

Nom du paramètre Type Requis Description
pdfFile file (Téléchargement requis) Oui -
pages text Non -
keepLineBreaks checkbox Non -
includePageSeparators checkbox Non -
hybridBackendUrl text Non -
preferHybridOcr checkbox Non -

Les paramètres de type fichier doivent être téléchargés d'abord via POST /upload/scanned-pdf-ocr-to-markdown pour obtenir filePath, puis filePath doit être passé au champ de fichier correspondant.

Format de réponse

{
  "filePath": "/public/processing/randomid.ext",
  "fileName": "output.ext",
  "contentType": "application/octet-stream",
  "size": 1024,
  "metadata": {
    "key": "value"
  },
  "error": "Error message (optional)",
  "message": "Notification message (optional)"
}
Fichier: Fichier

Documentation de MCP

Ajoutez cet outil à votre configuration de serveur MCP:

{
  "mcpServers": {
    "elysiatools-scanned-pdf-ocr-to-markdown": {
      "name": "scanned-pdf-ocr-to-markdown",
      "description": "Convertit les PDF scannes ou bases sur image en Markdown, avec priorite au mode hybrid OCR et repli propre si le backend nest pas disponible",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=scanned-pdf-ocr-to-markdown",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Vous pouvez chaîner plusieurs outils, par ex.: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, max 20 outils.

Prend en charge les liens de fichiers URL ou la codification Base64 pour les paramètres de fichier.

Si vous rencontrez des problèmes, veuillez nous contacter à [email protected]