Points clés
- Catégorie
- Images, audio et vidéo
- Types d’entrée
- file, select, text, checkbox
- Type de sortie
- html
- Couverture des échantillons
- 4
- API disponible
- Yes
Vue d’ensemble
Cet outil extrait automatiquement les images contenues dans vos fichiers PDF et leur associe les légendes (captions) les plus proches. En analysant la structure du document et la position des éléments, il génère un rapport HTML interactif et navigable, idéal pour récupérer rapidement les ressources visuelles et leurs descriptions à partir de manuels, rapports ou présentations.
Quand l’utiliser
- •Pour extraire les figures et leurs légendes à partir d'articles de recherche ou de manuels universitaires.
- •Pour récupérer rapidement les ressources visuelles et leurs descriptions dans des rapports d'entreprise ou des présentations.
- •Pour générer un index visuel navigable facilitant la révision de documents techniques ou de design.
Comment ça marche
- •Importez votre fichier PDF dans l'outil d'extraction.
- •Sélectionnez le format d'image souhaité (PNG ou JPEG) et spécifiez les pages à traiter si nécessaire.
- •L'outil analyse la structure du document pour exporter les images et identifier les textes environnants.
- •Téléchargez le rapport HTML généré contenant toutes les images associées à leurs descriptions respectives.
Cas d’usage
Exemples
1. Extraction de graphiques d'un article scientifique
Chercheur universitaire- Contexte
- Un chercheur doit compiler les graphiques et leurs descriptions à partir d'une thèse de 200 pages pour une revue de littérature.
- Problème
- Copier manuellement chaque image et son texte explicatif prend trop de temps et risque d'introduire des erreurs.
- Comment l’utiliser
- Uploadez le PDF de la thèse, sélectionnez le format PNG, et cochez 'Utiliser l'arbre de structure'.
- Configuration d’exemple
-
Format d'image: PNG, Utiliser l'arbre de structure: coché - Résultat
- Un fichier HTML est généré, listant tous les graphiques de la thèse avec leurs légendes exactes, prêts à être consultés.
2. Récupération d'images d'un catalogue produit
Responsable Marketing- Contexte
- L'équipe marketing dispose d'un ancien catalogue PDF de 50 pages et a besoin de récupérer les photos des produits avec leurs noms.
- Problème
- Les fichiers sources des images ont été perdus, seul le PDF final est disponible.
- Comment l’utiliser
- Importez le catalogue PDF, définissez les pages '10-20' correspondant à la nouvelle collection, et choisissez le format JPEG.
- Configuration d’exemple
-
Format d'image: JPEG, Pages: 10-20 - Résultat
- L'outil extrait les photos des pages 10 à 20 en JPEG et crée une page HTML associant chaque photo au texte descriptif situé à proximité.
Tester avec des échantillons
html, pdf, imageHubs associés
FAQ
Quels formats d'image sont pris en charge pour l'exportation ?
Vous pouvez choisir d'exporter les images extraites au format PNG ou JPEG selon vos besoins.
Puis-je extraire les images de pages spécifiques uniquement ?
Oui, vous pouvez indiquer des numéros de pages précis ou des plages (par exemple, 1,3,5-7) dans le champ dédié.
À quoi sert l'option 'Utiliser l'arbre de structure' ?
Cette option permet à l'outil d'utiliser les balises structurelles internes du PDF pour associer plus précisément les images à leurs légendes.
Quel type de fichier est généré en sortie ?
L'outil génère un fichier HTML navigable contenant un index de toutes les images extraites accompagnées de leurs légendes.
L'outil modifie-t-il mon fichier PDF original ?
Non, votre fichier PDF d'origine reste intact. L'outil se contente de lire le document pour en extraire les données visuelles et textuelles.