Points clés
- Catégorie
- IA et générateurs
- Types d’entrée
- file, select, number, checkbox
- Type de sortie
- file
- Couverture des échantillons
- 4
- API disponible
- Yes
Vue d’ensemble
Ce générateur transforme vos documents PDF en blocs de texte (chunks) optimisés pour le RAG (Retrieval-Augmented Generation). En extrayant les paragraphes, listes et tableaux avec leurs métadonnées précises (numéros de page, bounding boxes et hiérarchie des titres), il produit un fichier JSON structuré prêt à être intégré dans vos bases de données vectorielles pour des systèmes de questions-réponses avec citations exactes.
Quand l’utiliser
- •Préparer des documents PDF complexes pour l'ingestion dans une base de données vectorielle.
- •Créer des assistants IA ou des chatbots nécessitant des citations précises avec numéros de page et coordonnées spatiales.
- •Extraire du texte structuré tout en conservant la hiérarchie des titres et les données des tableaux.
Comment ça marche
- •Importez votre fichier PDF dans l'outil.
- •Définissez le mode de découpage (par titre ou par élément) et la limite maximale de caractères par bloc.
- •L'outil analyse la structure du document et regroupe le contenu en blocs enrichis de métadonnées spatiales et contextuelles.
- •Téléchargez le fichier JSON généré, prêt à être utilisé dans vos pipelines RAG.
Cas d’usage
Exemples
1. Préparer un rapport financier pour le RAG
Ingénieur IA- Contexte
- L'ingénieur doit intégrer des rapports financiers annuels dans un chatbot interne.
- Problème
- Les réponses du chatbot manquent de traçabilité et les utilisateurs veulent voir la page exacte du rapport d'où provient l'information.
- Comment l’utiliser
- Uploadez le rapport PDF, choisissez le mode 'Regrouper par titre', fixez la limite à 900 caractères et activez l'inclusion des tableaux.
- Configuration d’exemple
-
Mode: Regrouper par titre, Caractères max: 900, Inclure les tableaux: Oui - Résultat
- Un fichier JSON contenant des blocs de texte avec les numéros de page et les bounding boxes, permettant au chatbot de citer ses sources précisément.
2. Découpage de contrats juridiques
Développeur LegalTech- Contexte
- Une application d'analyse de contrats doit comparer des clauses spécifiques entre plusieurs documents.
- Problème
- Le texte brut perd la structure des articles et des clauses du contrat, rendant la recherche imprécise.
- Comment l’utiliser
- Importez le contrat PDF, sélectionnez 'Un élément par bloc' et activez l'utilisation de l'arbre de structure.
- Configuration d’exemple
-
Mode: Un élément par bloc, Utiliser l'arbre de structure: Oui - Résultat
- Chaque clause est isolée dans un bloc distinct avec son contexte hiérarchique, facilitant la recherche sémantique ciblée.
Tester avec des échantillons
pdf, fileHubs associés
FAQ
Quels types de métadonnées sont inclus dans les chunks ?
Chaque bloc généré inclut le texte, le numéro de page, les coordonnées spatiales (bounding box) et le chemin hiérarchique des titres.
Puis-je conserver les tableaux lors du découpage ?
Oui, l'option 'Inclure les tableaux' permet d'extraire et d'intégrer les données tabulaires dans les blocs générés.
Quelle est la différence entre les modes de découpage ?
Le mode 'Regrouper par titre' rassemble le contenu sous un même en-tête jusqu'à la limite de caractères, tandis que 'Un élément par bloc' isole chaque paragraphe ou liste individuellement.
Est-il possible de masquer les données sensibles ?
Oui, en activant l'option 'Assainir les données sensibles', l'outil tentera de nettoyer les informations confidentielles avant la génération du JSON.
Quel est le format du fichier de sortie ?
L'outil génère un fichier JSON structuré contenant un tableau d'objets, idéal pour l'intégration directe dans des systèmes d'IA.