Генератор RAG-чанков и citation pack для PDF

Преобразует PDF в RAG-чанки с номерами страниц, координатами и citation-метаданными

Загрузите PDF, и инструмент запустит OpenDataLoader для получения структурированного JSON. Затем абзацы, списки, таблицы и заголовки собираются в чанки для RAG с номером страницы, bounding box и контекстом раздела.

Примеры результатов

1 Примеры

Подготовить финансовый отчет для RAG

Реальный прогон создал 2 чанка и 57 семантических узлов для точных цитат.

pdf-rag-chunker-citation-pack-example1.json Показать файл
Показать параметры ввода
{ "pdfFile": "/public/samples/pdf/financial-report-example1.pdf", "chunkMode": "heading-aware", "maxChars": 900, "useStructTree": true, "sanitizeSensitiveData": false, "includeTableNodes": true }

Click to upload file or drag and drop file here

Maximum file size: 10MB Supported formats: application/pdf

Ключевые факты

Категория
ИИ и генераторы
Типы входных данных
file, select, number, checkbox
Тип результата
file
Покрытие примерами
4
API доступен
Yes

Обзор

Этот инструмент преобразует PDF-документы в структурированные фрагменты (чанки), оптимизированные для систем RAG и векторных баз данных. Он автоматически извлекает текст, таблицы и иерархию заголовков, сохраняя метаданные о номерах страниц и координатах (bounding boxes) для обеспечения точного цитирования источников в ответах ИИ.

Когда использовать

  • Подготовка данных для загрузки в векторные хранилища, такие как Pinecone, Weaviate или Milvus.
  • Создание систем ИИ-чатов, требующих точных ссылок на страницы и визуального выделения фрагментов в PDF-источнике.
  • Обработка сложных документов с таблицами и многоуровневой структурой разделов для улучшения качества семантического поиска.

Как это работает

  • Загрузите PDF-файл и выберите режим разбиения: группировка по заголовкам для сохранения контекста или по отдельным элементам для максимальной гранулярности.
  • Система анализирует структуру документа с помощью OpenDataLoader, извлекая текст, таблицы и иерархию разделов с учетом тегов структуры.
  • Текст разбивается на чанки заданного размера, при этом каждому фрагменту присваиваются метаданные: номер страницы, координаты блока и путь заголовков.
  • Инструмент генерирует JSON-файл (citation pack), готовый к индексации в RAG-системах для реализации поиска с подтверждением источника.

Сценарии использования

Индексация корпоративных баз знаний и технических регламентов для создания внутренних LLM-ассистентов с проверкой фактов.
Автоматизация подготовки юридических и финансовых отчетов для систем семантического поиска с сохранением ссылок на первоисточник.
Преобразование научных статей и учебных пособий в формат, пригодный для обучения и работы RAG-систем в образовательных целях.

Примеры

1. Подготовка финансового отчета для RAG

ML-инженер
Контекст
Компании необходимо внедрить ИИ-ассистента для анализа годовых финансовых отчетов в формате PDF.
Проблема
При обычном извлечении текста теряется связь с таблицами и номерами страниц, что делает невозможным проверку точности ответов бота.
Как использовать
Загрузите PDF отчета, установите режим 'heading-aware', включите 'Включать таблицы' и 'Использовать структуру тегов'.
Пример конфигурации
chunkMode: 'heading-aware', maxChars: 900, includeTableNodes: true, useStructTree: true
Результат
Получен JSON-файл с семантическими чанками, где каждый финансовый показатель привязан к конкретной странице и таблице для точного цитирования.

2. Обработка технической документации

Разработчик систем поиска
Контекст
Имеется многостраничное руководство пользователя со сложной вложенностью разделов и подразделов.
Проблема
Стандартные методы разбиения на части путают контекст, так как заголовки разделов оказываются оторванными от текста.
Как использовать
Загрузите руководство, выберите режим 'heading-aware' и задайте лимит в 1000 символов.
Пример конфигурации
chunkMode: 'heading-aware', maxChars: 1000, useStructTree: true
Результат
Сгенерирован набор чанков, каждый из которых содержит полный путь заголовков (хлебные крошки), обеспечивая правильный контекст при поиске.

Проверить на примерах

pdf, file

Связанные хабы

FAQ

Что такое режим 'heading-aware'?

Это режим формирования чанков, который учитывает иерархию заголовков, объединяя связанные абзацы в один смысловой блок для лучшего понимания контекста нейросетью.

Как работают координаты (bounding boxes) в выводе?

Для каждого фрагмента текста сохраняются координаты его расположения на странице, что позволяет интерфейсу чат-бота подсвечивать цитируемый текст прямо в PDF.

Можно ли обрабатывать таблицы из PDF?

Да, при включении опции 'Включать таблицы' инструмент преобразует табличные данные в структурированные узлы, сохраняя их связь с окружающим текстом.

Зачем нужна опция 'Использовать структуру тегов'?

Она позволяет использовать внутреннюю разметку PDF (если она есть) для более точного определения заголовков, списков и логических разделов документа.

Какой максимальный размер чанка можно установить?

Вы можете настроить лимит от 200 до 4000 символов, чтобы адаптировать размер фрагментов под требования вашей модели эмбеддингов.

Документация API

Конечная точка запроса

POST /ru/api/tools/pdf-rag-chunker-citation-pack

Параметры запроса

Имя параметра Тип Обязательно Описание
pdfFile file (Требуется загрузка) Да -
chunkMode select Нет -
maxChars number Нет -
useStructTree checkbox Нет -
sanitizeSensitiveData checkbox Нет -
includeTableNodes checkbox Нет -

Параметры типа файл должны быть загружены сначала через POST /upload/pdf-rag-chunker-citation-pack для получения filePath, затем filePath должен быть передан в соответствующее поле файла.

Формат ответа

{
  "filePath": "/public/processing/randomid.ext",
  "fileName": "output.ext",
  "contentType": "application/octet-stream",
  "size": 1024,
  "metadata": {
    "key": "value"
  },
  "error": "Error message (optional)",
  "message": "Notification message (optional)"
}
Файл: Файл

Документация MCP

Добавьте этот инструмент к конфигурации сервера MCP:

{
  "mcpServers": {
    "elysiatools-pdf-rag-chunker-citation-pack": {
      "name": "pdf-rag-chunker-citation-pack",
      "description": "Преобразует PDF в RAG-чанки с номерами страниц, координатами и citation-метаданными",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=pdf-rag-chunker-citation-pack",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Вы можете объединять несколько инструментов, например: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, максимум 20 инструментов.

Поддерживает ссылки на файлы URL или кодирование Base64 для параметров файла.

Если вы столкнулись с проблемами, пожалуйста, свяжитесь с нами по адресу [email protected]