Ключевые факты
- Категория
- ИИ и генераторы
- Типы входных данных
- file, select, number, checkbox
- Тип результата
- file
- Покрытие примерами
- 4
- API доступен
- Yes
Обзор
Этот инструмент преобразует PDF-документы в структурированные фрагменты (чанки), оптимизированные для систем RAG и векторных баз данных. Он автоматически извлекает текст, таблицы и иерархию заголовков, сохраняя метаданные о номерах страниц и координатах (bounding boxes) для обеспечения точного цитирования источников в ответах ИИ.
Когда использовать
- •Подготовка данных для загрузки в векторные хранилища, такие как Pinecone, Weaviate или Milvus.
- •Создание систем ИИ-чатов, требующих точных ссылок на страницы и визуального выделения фрагментов в PDF-источнике.
- •Обработка сложных документов с таблицами и многоуровневой структурой разделов для улучшения качества семантического поиска.
Как это работает
- •Загрузите PDF-файл и выберите режим разбиения: группировка по заголовкам для сохранения контекста или по отдельным элементам для максимальной гранулярности.
- •Система анализирует структуру документа с помощью OpenDataLoader, извлекая текст, таблицы и иерархию разделов с учетом тегов структуры.
- •Текст разбивается на чанки заданного размера, при этом каждому фрагменту присваиваются метаданные: номер страницы, координаты блока и путь заголовков.
- •Инструмент генерирует JSON-файл (citation pack), готовый к индексации в RAG-системах для реализации поиска с подтверждением источника.
Сценарии использования
Примеры
1. Подготовка финансового отчета для RAG
ML-инженер- Контекст
- Компании необходимо внедрить ИИ-ассистента для анализа годовых финансовых отчетов в формате PDF.
- Проблема
- При обычном извлечении текста теряется связь с таблицами и номерами страниц, что делает невозможным проверку точности ответов бота.
- Как использовать
- Загрузите PDF отчета, установите режим 'heading-aware', включите 'Включать таблицы' и 'Использовать структуру тегов'.
- Пример конфигурации
-
chunkMode: 'heading-aware', maxChars: 900, includeTableNodes: true, useStructTree: true - Результат
- Получен JSON-файл с семантическими чанками, где каждый финансовый показатель привязан к конкретной странице и таблице для точного цитирования.
2. Обработка технической документации
Разработчик систем поиска- Контекст
- Имеется многостраничное руководство пользователя со сложной вложенностью разделов и подразделов.
- Проблема
- Стандартные методы разбиения на части путают контекст, так как заголовки разделов оказываются оторванными от текста.
- Как использовать
- Загрузите руководство, выберите режим 'heading-aware' и задайте лимит в 1000 символов.
- Пример конфигурации
-
chunkMode: 'heading-aware', maxChars: 1000, useStructTree: true - Результат
- Сгенерирован набор чанков, каждый из которых содержит полный путь заголовков (хлебные крошки), обеспечивая правильный контекст при поиске.
Проверить на примерах
pdf, fileСвязанные хабы
FAQ
Что такое режим 'heading-aware'?
Это режим формирования чанков, который учитывает иерархию заголовков, объединяя связанные абзацы в один смысловой блок для лучшего понимания контекста нейросетью.
Как работают координаты (bounding boxes) в выводе?
Для каждого фрагмента текста сохраняются координаты его расположения на странице, что позволяет интерфейсу чат-бота подсвечивать цитируемый текст прямо в PDF.
Можно ли обрабатывать таблицы из PDF?
Да, при включении опции 'Включать таблицы' инструмент преобразует табличные данные в структурированные узлы, сохраняя их связь с окружающим текстом.
Зачем нужна опция 'Использовать структуру тегов'?
Она позволяет использовать внутреннюю разметку PDF (если она есть) для более точного определения заголовков, списков и логических разделов документа.
Какой максимальный размер чанка можно установить?
Вы можете настроить лимит от 200 до 4000 символов, чтобы адаптировать размер фрагментов под требования вашей модели эмбеддингов.