Convertisseur PDF vers Markdown structure

Convertit un PDF en Markdown structure via OpenDataLoader avec prise en charge HTML, images et separateurs de page

Apres le chargement dun PDF, loutil execute OpenDataLoader pour produire un Markdown structure. Vous pouvez choisir un Markdown simple, avec HTML ou avec images, ainsi que regler les sauts de ligne, separateurs de page, structure etiquetee et sanitisation.

Exemples de résultats

1 Exemples

Convertir un guide de marque PDF en Markdown

Le sample reel a produit un fichier Markdown de 596 octets reutilisable.

pdf-to-structured-markdown-converter-example1.md Voir fichier
Voir paramètres d'entrée
{ "pdfFile": "/public/samples/pdf/brand-guidelines-pdf-example1.pdf", "markdownOutput": "markdown", "keepLineBreaks": true, "useStructTree": true, "includePageSeparators": true, "sanitizeSensitiveData": false, "pages": "" }

Click to upload file or drag and drop file here

Maximum file size: 10MB Supported formats: application/pdf

Points clés

Catégorie
Développement et Web
Types d’entrée
file, select, checkbox, text
Type de sortie
file
Couverture des échantillons
4
API disponible
Yes

Vue d’ensemble

Ce convertisseur transforme vos documents PDF en fichiers Markdown structurés en utilisant le moteur OpenDataLoader. Idéal pour la migration de contenu, la documentation technique ou la préparation de données pour l'IA, il permet d'extraire le texte tout en conservant la structure d'origine. Vous pouvez personnaliser la sortie en incluant du code HTML, des images, des séparateurs de page et en ciblant des pages spécifiques pour un résultat parfaitement adapté à vos besoins.

Quand l’utiliser

  • Lors de la migration de manuels ou de guides PDF vers un système de documentation basé sur Markdown (comme Docusaurus, Hugo ou Notion).
  • Pour préparer et nettoyer des documents textuels afin d'alimenter des modèles d'intelligence artificielle (LLM) ou des bases de connaissances.
  • Quand vous avez besoin d'extraire rapidement le texte structuré d'un rapport PDF tout en conservant les sauts de page et la hiérarchie des titres.

Comment ça marche

  • Importez votre fichier PDF dans l'outil de conversion.
  • Sélectionnez le format de sortie souhaité (Markdown simple, avec HTML ou avec images) et indiquez les pages à traiter si nécessaire.
  • Ajustez les options avancées telles que la conservation des sauts de ligne, l'utilisation de l'arbre de structure ou l'assainissement des données sensibles.
  • Lancez la conversion et téléchargez votre fichier Markdown prêt à être utilisé.

Cas d’usage

Alimentation de pipelines RAG (Retrieval-Augmented Generation) avec des documents d'entreprise propres et bien formatés.
Conversion de chartes graphiques ou de livres blancs PDF en pages web statiques via des générateurs de sites.
Extraction de données textuelles à partir de rapports financiers pour une analyse sémantique ou un archivage structuré.

Exemples

1. Conversion d'un guide de marque en Markdown

Rédacteur technique
Contexte
L'équipe marketing a fourni les directives de la marque sous forme de PDF, mais elles doivent être intégrées au wiki de l'entreprise.
Problème
Copier-coller le texte du PDF détruit la mise en forme et mélange les paragraphes.
Comment l’utiliser
Uploadez le PDF du guide, choisissez 'Markdown simple', et cochez 'Utiliser l'arbre de structure' et 'Inclure des séparateurs de page'.
Configuration d’exemple
Sortie: markdown, Arbre de structure: activé, Séparateurs: activés
Résultat
Un fichier .md propre est généré, prêt à être importé dans le wiki avec sa hiérarchie intacte.

2. Extraction de chapitres spécifiques pour l'IA

Ingénieur Data
Contexte
Un long rapport de 200 pages contient des données confidentielles et seules quelques pages sont pertinentes pour entraîner un modèle.
Problème
Extraire uniquement les pages 15 à 20 tout en supprimant les données sensibles.
Comment l’utiliser
Importez le rapport PDF, saisissez '15-20' dans le champ Pages, et activez l'option 'Assainir les données sensibles'.
Configuration d’exemple
Pages: 15-20, Assainir les données: activé
Résultat
Seules les 6 pages demandées sont converties en Markdown, avec les informations sensibles masquées automatiquement.

Tester avec des échantillons

html, markdown, pdf

Hubs associés

FAQ

Puis-je convertir seulement certaines pages de mon PDF ?

Oui, utilisez le champ 'Pages' pour spécifier les pages exactes à extraire (par exemple : 1,3,5-7).

L'outil conserve-t-il les images du PDF ?

Oui, en sélectionnant l'option 'Markdown avec images', l'outil extraira les images et inclura les références correspondantes dans le fichier Markdown.

Qu'est-ce que l'option d'arbre de structure (StructTree) ?

Elle utilise les balises internes du PDF (Tagged PDF) pour mieux identifier les titres, paragraphes et listes, améliorant ainsi la qualité et la sémantique du Markdown généré.

Est-il possible de masquer les informations sensibles ?

Oui, cochez l'option 'Assainir les données sensibles' pour appliquer un filtre de nettoyage lors de l'extraction du texte.

Quel est le format du fichier généré ?

L'outil génère un fichier texte brut avec l'extension .md, téléchargeable immédiatement après la conversion.

Documentation de l'API

Point de terminaison de la requête

POST /fr/api/tools/pdf-to-structured-markdown-converter

Paramètres de la requête

Nom du paramètre Type Requis Description
pdfFile file (Téléchargement requis) Oui -
markdownOutput select Non -
keepLineBreaks checkbox Non -
useStructTree checkbox Non -
includePageSeparators checkbox Non -
sanitizeSensitiveData checkbox Non -
pages text Non -

Les paramètres de type fichier doivent être téléchargés d'abord via POST /upload/pdf-to-structured-markdown-converter pour obtenir filePath, puis filePath doit être passé au champ de fichier correspondant.

Format de réponse

{
  "filePath": "/public/processing/randomid.ext",
  "fileName": "output.ext",
  "contentType": "application/octet-stream",
  "size": 1024,
  "metadata": {
    "key": "value"
  },
  "error": "Error message (optional)",
  "message": "Notification message (optional)"
}
Fichier: Fichier

Documentation de MCP

Ajoutez cet outil à votre configuration de serveur MCP:

{
  "mcpServers": {
    "elysiatools-pdf-to-structured-markdown-converter": {
      "name": "pdf-to-structured-markdown-converter",
      "description": "Convertit un PDF en Markdown structure via OpenDataLoader avec prise en charge HTML, images et separateurs de page",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=pdf-to-structured-markdown-converter",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Vous pouvez chaîner plusieurs outils, par ex.: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, max 20 outils.

Prend en charge les liens de fichiers URL ou la codification Base64 pour les paramètres de fichier.

Si vous rencontrez des problèmes, veuillez nous contacter à [email protected]