Generateur de chunks RAG et citations PDF

Transforme un PDF en chunks RAG avec page, bounding box et metadonnees de citation

Chargez un PDF et loutil execute OpenDataLoader pour produire un JSON structure. Les paragraphes, listes, tableaux et titres sont ensuite regroupes en chunks RAG avec page, bounding box et contexte de section.

Exemples de résultats

1 Exemples

Preparer un rapport financier pour le RAG

Le test reel a produit 2 chunks et 57 noeuds semantiques pour des citations precises.

pdf-rag-chunker-citation-pack-example1.json Voir fichier
Voir paramètres d'entrée
{ "pdfFile": "/public/samples/pdf/financial-report-example1.pdf", "chunkMode": "heading-aware", "maxChars": 900, "useStructTree": true, "sanitizeSensitiveData": false, "includeTableNodes": true }

Click to upload file or drag and drop file here

Maximum file size: 10MB Supported formats: application/pdf

Points clés

Catégorie
IA et générateurs
Types d’entrée
file, select, number, checkbox
Type de sortie
file
Couverture des échantillons
4
API disponible
Yes

Vue d’ensemble

Ce générateur transforme vos documents PDF en blocs de texte (chunks) optimisés pour le RAG (Retrieval-Augmented Generation). En extrayant les paragraphes, listes et tableaux avec leurs métadonnées précises (numéros de page, bounding boxes et hiérarchie des titres), il produit un fichier JSON structuré prêt à être intégré dans vos bases de données vectorielles pour des systèmes de questions-réponses avec citations exactes.

Quand l’utiliser

  • Préparer des documents PDF complexes pour l'ingestion dans une base de données vectorielle.
  • Créer des assistants IA ou des chatbots nécessitant des citations précises avec numéros de page et coordonnées spatiales.
  • Extraire du texte structuré tout en conservant la hiérarchie des titres et les données des tableaux.

Comment ça marche

  • Importez votre fichier PDF dans l'outil.
  • Définissez le mode de découpage (par titre ou par élément) et la limite maximale de caractères par bloc.
  • L'outil analyse la structure du document et regroupe le contenu en blocs enrichis de métadonnées spatiales et contextuelles.
  • Téléchargez le fichier JSON généré, prêt à être utilisé dans vos pipelines RAG.

Cas d’usage

Alimentation de bases de données vectorielles pour la recherche sémantique.
Développement de systèmes de questions-réponses (Q&A) capables de sourcer visuellement leurs réponses sur le PDF original.
Traitement par lots de rapports financiers ou de manuels techniques pour l'analyse automatisée.

Exemples

1. Préparer un rapport financier pour le RAG

Ingénieur IA
Contexte
L'ingénieur doit intégrer des rapports financiers annuels dans un chatbot interne.
Problème
Les réponses du chatbot manquent de traçabilité et les utilisateurs veulent voir la page exacte du rapport d'où provient l'information.
Comment l’utiliser
Uploadez le rapport PDF, choisissez le mode 'Regrouper par titre', fixez la limite à 900 caractères et activez l'inclusion des tableaux.
Configuration d’exemple
Mode: Regrouper par titre, Caractères max: 900, Inclure les tableaux: Oui
Résultat
Un fichier JSON contenant des blocs de texte avec les numéros de page et les bounding boxes, permettant au chatbot de citer ses sources précisément.

2. Découpage de contrats juridiques

Développeur LegalTech
Contexte
Une application d'analyse de contrats doit comparer des clauses spécifiques entre plusieurs documents.
Problème
Le texte brut perd la structure des articles et des clauses du contrat, rendant la recherche imprécise.
Comment l’utiliser
Importez le contrat PDF, sélectionnez 'Un élément par bloc' et activez l'utilisation de l'arbre de structure.
Configuration d’exemple
Mode: Un élément par bloc, Utiliser l'arbre de structure: Oui
Résultat
Chaque clause est isolée dans un bloc distinct avec son contexte hiérarchique, facilitant la recherche sémantique ciblée.

Tester avec des échantillons

pdf, file

Hubs associés

FAQ

Quels types de métadonnées sont inclus dans les chunks ?

Chaque bloc généré inclut le texte, le numéro de page, les coordonnées spatiales (bounding box) et le chemin hiérarchique des titres.

Puis-je conserver les tableaux lors du découpage ?

Oui, l'option 'Inclure les tableaux' permet d'extraire et d'intégrer les données tabulaires dans les blocs générés.

Quelle est la différence entre les modes de découpage ?

Le mode 'Regrouper par titre' rassemble le contenu sous un même en-tête jusqu'à la limite de caractères, tandis que 'Un élément par bloc' isole chaque paragraphe ou liste individuellement.

Est-il possible de masquer les données sensibles ?

Oui, en activant l'option 'Assainir les données sensibles', l'outil tentera de nettoyer les informations confidentielles avant la génération du JSON.

Quel est le format du fichier de sortie ?

L'outil génère un fichier JSON structuré contenant un tableau d'objets, idéal pour l'intégration directe dans des systèmes d'IA.

Documentation de l'API

Point de terminaison de la requête

POST /fr/api/tools/pdf-rag-chunker-citation-pack

Paramètres de la requête

Nom du paramètre Type Requis Description
pdfFile file (Téléchargement requis) Oui -
chunkMode select Non -
maxChars number Non -
useStructTree checkbox Non -
sanitizeSensitiveData checkbox Non -
includeTableNodes checkbox Non -

Les paramètres de type fichier doivent être téléchargés d'abord via POST /upload/pdf-rag-chunker-citation-pack pour obtenir filePath, puis filePath doit être passé au champ de fichier correspondant.

Format de réponse

{
  "filePath": "/public/processing/randomid.ext",
  "fileName": "output.ext",
  "contentType": "application/octet-stream",
  "size": 1024,
  "metadata": {
    "key": "value"
  },
  "error": "Error message (optional)",
  "message": "Notification message (optional)"
}
Fichier: Fichier

Documentation de MCP

Ajoutez cet outil à votre configuration de serveur MCP:

{
  "mcpServers": {
    "elysiatools-pdf-rag-chunker-citation-pack": {
      "name": "pdf-rag-chunker-citation-pack",
      "description": "Transforme un PDF en chunks RAG avec page, bounding box et metadonnees de citation",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=pdf-rag-chunker-citation-pack",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Vous pouvez chaîner plusieurs outils, par ex.: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, max 20 outils.

Prend en charge les liens de fichiers URL ou la codification Base64 pour les paramètres de fichier.

Si vous rencontrez des problèmes, veuillez nous contacter à [email protected]