PDF-RAG-Chunker mit Citation Pack

Wandelt ein PDF in RAG-Chunks mit Seitenzahl, Bounding Box und Zitiermetadaten um

Laden Sie ein PDF hoch. Das Tool fuehrt OpenDataLoader aus und erzeugt strukturiertes JSON. Anschliessend werden Absaetze, Listen, Tabellen und Ueberschriften zu RAG-Chunks mit Seitenzahl, Bounding Box und Abschnittskontext zusammengefasst.

Beispielergebnisse

1 Beispiele

Finanzbericht fuer RAG vorbereiten

Der reale Test erzeugte 2 Chunks und 57 semantische Knoten fuer praezise Zitate.

pdf-rag-chunker-citation-pack-example1.json Datei anzeigen
Eingabeparameter anzeigen
{ "pdfFile": "/public/samples/pdf/financial-report-example1.pdf", "chunkMode": "heading-aware", "maxChars": 900, "useStructTree": true, "sanitizeSensitiveData": false, "includeTableNodes": true }

Click to upload file or drag and drop file here

Maximum file size: 10MB Supported formats: application/pdf

Wichtige Fakten

Kategorie
KI & Generatoren
Eingabetypen
file, select, number, checkbox
Ausgabetyp
file
Sample-Abdeckung
4
API verfügbar
Yes

Überblick

Der PDF-RAG-Chunker mit Citation Pack ist ein spezialisiertes Tool, das PDF-Dokumente in strukturierte, abrufbare JSON-Chunks für Retrieval-Augmented Generation (RAG) umwandelt. Durch die Extraktion von Absätzen, Listen, Tabellen und Überschriften generiert es präzise Textblöcke, die mit Seitenzahlen, Bounding-Box-Koordinaten und Abschnittskontexten angereichert sind. Dies ermöglicht eine nahtlose Integration in Vektordatenbanken und sorgt für exakte Quellenangaben in KI-gestützten Chat-Systemen.

Wann verwenden

  • Wenn Sie PDF-Dokumente für die Einspeisung in Vektordatenbanken vorbereiten und dabei den semantischen Kontext erhalten möchten.
  • Wenn Sie ein KI-Chat-System entwickeln, das exakte Quellenangaben mit Seitenzahlen und Bounding-Box-Koordinaten für visuelle Referenzen erfordert.
  • Wenn komplexe Dokumente mit Tabellen und hierarchischen Überschriften in logische, maschinenlesbare Textblöcke unterteilt werden sollen.

So funktioniert es

  • Laden Sie Ihre PDF-Datei hoch und wählen Sie den gewünschten Chunk-Modus (z. B. Gruppierung nach Überschriften oder ein Element pro Chunk).
  • Legen Sie die maximale Zeichenanzahl pro Chunk fest und entscheiden Sie, ob Tabellen oder Strukturbaumdaten einbezogen werden sollen.
  • Das Tool analysiert das Dokument und fasst Absätze, Listen und Tabellen zu semantisch sinnvollen Blöcken zusammen.
  • Laden Sie das fertige JSON-Paket herunter, das alle Chunks inklusive Zitiermetadaten, Seitenzahlen und Bounding-Boxen enthält.

Anwendungsfälle

Aufbereitung von Finanzberichten für KI-Analysten, bei denen genaue Verweise auf Tabellen und Absätze unerlässlich sind.
Verarbeitung von juristischen Verträgen für Legal-Tech-Anwendungen, um Klauseln mit exakten Seitenangaben zitierfähig zu machen.
Strukturierung umfangreicher technischer Handbücher, um Support-Chatbots mit präzisem, überschriftenbasiertem Kontext zu versorgen.

Beispiele

1. Finanzbericht für RAG vorbereiten

Data Engineer
Hintergrund
Ein Data Engineer muss einen umfangreichen Jahresbericht in eine Vektordatenbank laden, damit ein KI-Assistent Fragen dazu beantworten kann.
Problem
Die KI muss bei Antworten genau angeben können, auf welcher Seite und unter welcher Überschrift die Information steht, um Halluzinationen zu vermeiden.
Verwendung
Laden Sie den Finanzbericht hoch, wählen Sie 'Nach Überschriften gruppieren', setzen Sie die maximale Zeichenzahl auf 900 und aktivieren Sie 'Tabellen einbeziehen'.
Beispielkonfiguration
Chunk-Modus: heading-aware, Max Zeichen: 900, Tabellen einbeziehen: true
Ergebnis
Eine JSON-Datei mit RAG-Chunks, bei der jeder Textblock die Seitenzahl, die Bounding Box und den hierarchischen Pfad der Überschrift enthält.

2. Mitarbeiterhandbuch mit Datenmaskierung verarbeiten

HR Tech Entwickler
Hintergrund
Ein Entwickler baut einen internen HR-Chatbot basierend auf PDF-Richtlinien, die teilweise interne Namen oder sensible Kontaktdaten enthalten.
Problem
Das Dokument muss in Chunks zerlegt werden, ohne dass sensible personenbezogene Daten in die Vektordatenbank gelangen.
Verwendung
Laden Sie das PDF hoch, aktivieren Sie 'Sensible Daten maskieren' und wählen Sie 'Ein Element pro Chunk', um feingranulare Blöcke zu erhalten.
Beispielkonfiguration
Chunk-Modus: element-per-chunk, Sensible Daten maskieren: true
Ergebnis
Das PDF wird in saubere, maskierte JSON-Chunks unterteilt, die sicher und datenschutzkonform in der RAG-Pipeline verwendet werden können.

Mit Samples testen

pdf, file

Verwandte Hubs

FAQ

Welche Chunk-Modi stehen zur Verfügung?

Sie können zwischen 'Nach Überschriften gruppieren' (heading-aware) und 'Ein Element pro Chunk' wählen, je nachdem, wie viel Kontext Ihre Vektordatenbank für optimale Suchergebnisse benötigt.

Werden Tabellen im PDF unterstützt?

Ja, Sie können die Option 'Tabellen einbeziehen' aktivieren, um tabellarische Daten als strukturierte Elemente in die generierten Chunks aufzunehmen.

Was sind Bounding Boxes und wofür werden sie genutzt?

Bounding Boxes sind Koordinaten, die genau angeben, wo sich ein Textabschnitt auf der Original-PDF-Seite befindet. Dies ist ideal für Frontend-Anwendungen, die KI-Zitate im Originaldokument visuell hervorheben möchten.

Kann ich sensible Daten im PDF maskieren?

Ja, das Tool bietet eine Checkbox 'Sensible Daten maskieren', mit der vertrauliche Informationen unkenntlich gemacht werden können, bevor die Chunks für das RAG-System generiert werden.

In welchem Format wird das Ergebnis bereitgestellt?

Das Ergebnis ist eine strukturierte JSON-Datei. Dieses Format lässt sich direkt in gängige RAG-Pipelines, LLM-Frameworks und Vektordatenbanken importieren.

API-Dokumentation

Request-Endpunkt

POST /de/api/tools/pdf-rag-chunker-citation-pack

Request-Parameter

Parameter-Name Typ Erforderlich Beschreibung
pdfFile file (Upload erforderlich) Ja -
chunkMode select Nein -
maxChars number Nein -
useStructTree checkbox Nein -
sanitizeSensitiveData checkbox Nein -
includeTableNodes checkbox Nein -

Dateitypparameter müssen erst über POST /upload/pdf-rag-chunker-citation-pack hochgeladen werden, um filePath zu erhalten, dann filePath an das entsprechende Dateifeld übergeben.

Antwortformat

{
  "filePath": "/public/processing/randomid.ext",
  "fileName": "output.ext",
  "contentType": "application/octet-stream",
  "size": 1024,
  "metadata": {
    "key": "value"
  },
  "error": "Error message (optional)",
  "message": "Notification message (optional)"
}
Datei: Datei

MCP-Dokumentation

Fügen Sie dieses Tool zu Ihrer MCP-Server-Konfiguration hinzu:

{
  "mcpServers": {
    "elysiatools-pdf-rag-chunker-citation-pack": {
      "name": "pdf-rag-chunker-citation-pack",
      "description": "Wandelt ein PDF in RAG-Chunks mit Seitenzahl, Bounding Box und Zitiermetadaten um",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=pdf-rag-chunker-citation-pack",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Sie können mehrere Tools verketten, z.B.: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, maximal 20 Tools.

Unterstützt URL-Dateilinks oder Base64-Codierung für Dateiparameter.

Wenn Sie auf Probleme stoßen, kontaktieren Sie uns bitte bei [email protected]