Extracteur dimages et captions PDF

Extrait les images PDF, associe les captions voisines et genere un index HTML navigable

Apres le chargement dun PDF, loutil exporte les ressources visuelles, analyse le JSON structure et associe a chaque image les captions les plus proches selon la page et la position avant de produire un rapport HTML.

Exemples de résultats

1 Exemples

Extraire les images PDF et leurs captions

Le sample reel a produit un rapport HTML navigable avec images et captions.

pdf-image-caption-extractor-example1.html Voir fichier
Voir paramètres d'entrée
{ "pdfFile": "/public/samples/pdf/pdf-image-caption-extractor-source-example1.pdf", "imageFormat": "png", "pages": "", "useStructTree": true }

Click to upload file or drag and drop file here

Maximum file size: 10MB Supported formats: application/pdf

Points clés

Catégorie
Images, audio et vidéo
Types d’entrée
file, select, text, checkbox
Type de sortie
html
Couverture des échantillons
4
API disponible
Yes

Vue d’ensemble

Cet outil extrait automatiquement les images contenues dans vos fichiers PDF et leur associe les légendes (captions) les plus proches. En analysant la structure du document et la position des éléments, il génère un rapport HTML interactif et navigable, idéal pour récupérer rapidement les ressources visuelles et leurs descriptions à partir de manuels, rapports ou présentations.

Quand l’utiliser

  • Pour extraire les figures et leurs légendes à partir d'articles de recherche ou de manuels universitaires.
  • Pour récupérer rapidement les ressources visuelles et leurs descriptions dans des rapports d'entreprise ou des présentations.
  • Pour générer un index visuel navigable facilitant la révision de documents techniques ou de design.

Comment ça marche

  • Importez votre fichier PDF dans l'outil d'extraction.
  • Sélectionnez le format d'image souhaité (PNG ou JPEG) et spécifiez les pages à traiter si nécessaire.
  • L'outil analyse la structure du document pour exporter les images et identifier les textes environnants.
  • Téléchargez le rapport HTML généré contenant toutes les images associées à leurs descriptions respectives.

Cas d’usage

Récupération d'illustrations et de graphiques annotés depuis des publications scientifiques.
Création de banques d'images documentées à partir de catalogues ou de manuels d'utilisation.
Audit et extraction de ressources visuelles pour la refonte de supports de communication.

Exemples

1. Extraction de graphiques d'un article scientifique

Chercheur universitaire
Contexte
Un chercheur doit compiler les graphiques et leurs descriptions à partir d'une thèse de 200 pages pour une revue de littérature.
Problème
Copier manuellement chaque image et son texte explicatif prend trop de temps et risque d'introduire des erreurs.
Comment l’utiliser
Uploadez le PDF de la thèse, sélectionnez le format PNG, et cochez 'Utiliser l'arbre de structure'.
Configuration d’exemple
Format d'image: PNG, Utiliser l'arbre de structure: coché
Résultat
Un fichier HTML est généré, listant tous les graphiques de la thèse avec leurs légendes exactes, prêts à être consultés.

2. Récupération d'images d'un catalogue produit

Responsable Marketing
Contexte
L'équipe marketing dispose d'un ancien catalogue PDF de 50 pages et a besoin de récupérer les photos des produits avec leurs noms.
Problème
Les fichiers sources des images ont été perdus, seul le PDF final est disponible.
Comment l’utiliser
Importez le catalogue PDF, définissez les pages '10-20' correspondant à la nouvelle collection, et choisissez le format JPEG.
Configuration d’exemple
Format d'image: JPEG, Pages: 10-20
Résultat
L'outil extrait les photos des pages 10 à 20 en JPEG et crée une page HTML associant chaque photo au texte descriptif situé à proximité.

Tester avec des échantillons

html, pdf, image

Hubs associés

FAQ

Quels formats d'image sont pris en charge pour l'exportation ?

Vous pouvez choisir d'exporter les images extraites au format PNG ou JPEG selon vos besoins.

Puis-je extraire les images de pages spécifiques uniquement ?

Oui, vous pouvez indiquer des numéros de pages précis ou des plages (par exemple, 1,3,5-7) dans le champ dédié.

À quoi sert l'option 'Utiliser l'arbre de structure' ?

Cette option permet à l'outil d'utiliser les balises structurelles internes du PDF pour associer plus précisément les images à leurs légendes.

Quel type de fichier est généré en sortie ?

L'outil génère un fichier HTML navigable contenant un index de toutes les images extraites accompagnées de leurs légendes.

L'outil modifie-t-il mon fichier PDF original ?

Non, votre fichier PDF d'origine reste intact. L'outil se contente de lire le document pour en extraire les données visuelles et textuelles.

Documentation de l'API

Point de terminaison de la requête

POST /fr/api/tools/pdf-image-caption-extractor

Paramètres de la requête

Nom du paramètre Type Requis Description
pdfFile file (Téléchargement requis) Oui -
imageFormat select Non -
pages text Non -
useStructTree checkbox Non -

Les paramètres de type fichier doivent être téléchargés d'abord via POST /upload/pdf-image-caption-extractor pour obtenir filePath, puis filePath doit être passé au champ de fichier correspondant.

Format de réponse

{
  "result": "
Processed HTML content
", "error": "Error message (optional)", "message": "Notification message (optional)", "metadata": { "key": "value" } }
HTML: HTML

Documentation de MCP

Ajoutez cet outil à votre configuration de serveur MCP:

{
  "mcpServers": {
    "elysiatools-pdf-image-caption-extractor": {
      "name": "pdf-image-caption-extractor",
      "description": "Extrait les images PDF, associe les captions voisines et genere un index HTML navigable",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=pdf-image-caption-extractor",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Vous pouvez chaîner plusieurs outils, par ex.: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, max 20 outils.

Prend en charge les liens de fichiers URL ou la codification Base64 pour les paramètres de fichier.

Si vous rencontrez des problèmes, veuillez nous contacter à [email protected]