Wichtige Fakten
- Kategorie
- KI & Generatoren
- Eingabetypen
- file, select, number, checkbox
- Ausgabetyp
- file
- Sample-Abdeckung
- 4
- API verfügbar
- Yes
Überblick
Der PDF-RAG-Chunker mit Citation Pack ist ein spezialisiertes Tool, das PDF-Dokumente in strukturierte, abrufbare JSON-Chunks für Retrieval-Augmented Generation (RAG) umwandelt. Durch die Extraktion von Absätzen, Listen, Tabellen und Überschriften generiert es präzise Textblöcke, die mit Seitenzahlen, Bounding-Box-Koordinaten und Abschnittskontexten angereichert sind. Dies ermöglicht eine nahtlose Integration in Vektordatenbanken und sorgt für exakte Quellenangaben in KI-gestützten Chat-Systemen.
Wann verwenden
- •Wenn Sie PDF-Dokumente für die Einspeisung in Vektordatenbanken vorbereiten und dabei den semantischen Kontext erhalten möchten.
- •Wenn Sie ein KI-Chat-System entwickeln, das exakte Quellenangaben mit Seitenzahlen und Bounding-Box-Koordinaten für visuelle Referenzen erfordert.
- •Wenn komplexe Dokumente mit Tabellen und hierarchischen Überschriften in logische, maschinenlesbare Textblöcke unterteilt werden sollen.
So funktioniert es
- •Laden Sie Ihre PDF-Datei hoch und wählen Sie den gewünschten Chunk-Modus (z. B. Gruppierung nach Überschriften oder ein Element pro Chunk).
- •Legen Sie die maximale Zeichenanzahl pro Chunk fest und entscheiden Sie, ob Tabellen oder Strukturbaumdaten einbezogen werden sollen.
- •Das Tool analysiert das Dokument und fasst Absätze, Listen und Tabellen zu semantisch sinnvollen Blöcken zusammen.
- •Laden Sie das fertige JSON-Paket herunter, das alle Chunks inklusive Zitiermetadaten, Seitenzahlen und Bounding-Boxen enthält.
Anwendungsfälle
Beispiele
1. Finanzbericht für RAG vorbereiten
Data Engineer- Hintergrund
- Ein Data Engineer muss einen umfangreichen Jahresbericht in eine Vektordatenbank laden, damit ein KI-Assistent Fragen dazu beantworten kann.
- Problem
- Die KI muss bei Antworten genau angeben können, auf welcher Seite und unter welcher Überschrift die Information steht, um Halluzinationen zu vermeiden.
- Verwendung
- Laden Sie den Finanzbericht hoch, wählen Sie 'Nach Überschriften gruppieren', setzen Sie die maximale Zeichenzahl auf 900 und aktivieren Sie 'Tabellen einbeziehen'.
- Beispielkonfiguration
-
Chunk-Modus: heading-aware, Max Zeichen: 900, Tabellen einbeziehen: true - Ergebnis
- Eine JSON-Datei mit RAG-Chunks, bei der jeder Textblock die Seitenzahl, die Bounding Box und den hierarchischen Pfad der Überschrift enthält.
2. Mitarbeiterhandbuch mit Datenmaskierung verarbeiten
HR Tech Entwickler- Hintergrund
- Ein Entwickler baut einen internen HR-Chatbot basierend auf PDF-Richtlinien, die teilweise interne Namen oder sensible Kontaktdaten enthalten.
- Problem
- Das Dokument muss in Chunks zerlegt werden, ohne dass sensible personenbezogene Daten in die Vektordatenbank gelangen.
- Verwendung
- Laden Sie das PDF hoch, aktivieren Sie 'Sensible Daten maskieren' und wählen Sie 'Ein Element pro Chunk', um feingranulare Blöcke zu erhalten.
- Beispielkonfiguration
-
Chunk-Modus: element-per-chunk, Sensible Daten maskieren: true - Ergebnis
- Das PDF wird in saubere, maskierte JSON-Chunks unterteilt, die sicher und datenschutzkonform in der RAG-Pipeline verwendet werden können.
Mit Samples testen
pdf, fileVerwandte Hubs
FAQ
Welche Chunk-Modi stehen zur Verfügung?
Sie können zwischen 'Nach Überschriften gruppieren' (heading-aware) und 'Ein Element pro Chunk' wählen, je nachdem, wie viel Kontext Ihre Vektordatenbank für optimale Suchergebnisse benötigt.
Werden Tabellen im PDF unterstützt?
Ja, Sie können die Option 'Tabellen einbeziehen' aktivieren, um tabellarische Daten als strukturierte Elemente in die generierten Chunks aufzunehmen.
Was sind Bounding Boxes und wofür werden sie genutzt?
Bounding Boxes sind Koordinaten, die genau angeben, wo sich ein Textabschnitt auf der Original-PDF-Seite befindet. Dies ist ideal für Frontend-Anwendungen, die KI-Zitate im Originaldokument visuell hervorheben möchten.
Kann ich sensible Daten im PDF maskieren?
Ja, das Tool bietet eine Checkbox 'Sensible Daten maskieren', mit der vertrauliche Informationen unkenntlich gemacht werden können, bevor die Chunks für das RAG-System generiert werden.
In welchem Format wird das Ergebnis bereitgestellt?
Das Ergebnis ist eine strukturierte JSON-Datei. Dieses Format lässt sich direkt in gängige RAG-Pipelines, LLM-Frameworks und Vektordatenbanken importieren.