Что такое режим 'heading-aware'?

Это режим формирования чанков, который учитывает иерархию заголовков, объединяя связанные абзацы в один смысловой блок для лучшего понимания контекста нейросетью.

Как работают координаты (bounding boxes) в выводе?

Для каждого фрагмента текста сохраняются координаты его расположения на странице, что позволяет интерфейсу чат-бота подсвечивать цитируемый текст прямо в PDF.

Можно ли обрабатывать таблицы из PDF?

Да, при включении опции 'Включать таблицы' инструмент преобразует табличные данные в структурированные узлы, сохраняя их связь с окружающим текстом.

Зачем нужна опция 'Использовать структуру тегов'?

Она позволяет использовать внутреннюю разметку PDF (если она есть) для более точного определения заголовков, списков и логических разделов документа.

Какой максимальный размер чанка можно установить?

Вы можете настроить лимит от 200 до 4000 символов, чтобы адаптировать размер фрагментов под требования вашей модели эмбеддингов.

Elysia Tools

Навигация

AI Tools

Генератор RAG-чанков и citation pack для PDF

Преобразует PDF в RAG-чанки с номерами страниц, координатами и citation-метаданными

Детали

С чем помогает этот инструмент

Загрузите PDF, и инструмент запустит OpenDataLoader для получения структурированного JSON. Затем абзацы, списки, таблицы и заголовки собираются в чанки для RAG с номером страницы, bounding box и контекстом раздела.

Запуск

Запустить этот инструмент

Заполните форму, запустите инструмент и посмотрите результат на этой же странице.

Подготовленные примеры запуска

Нажмите пример, чтобы автоматически заполнить форму. Файлы по-прежнему нужно загрузить.

1 примеров

Подготовить финансовый отчет для RAG

Реальный прогон создал 2 чанка и 57 семантических узлов для точных цитат.

{
  "type": "file",
  "filePath": "/public/samples/json/pdf-rag-chunker-citation-pack-example1.json"
}

Ввод

Заполните нужные поля и запустите инструмент.

6 параметров

ФайлыЗагрузите исходные файлы для этого сценария.1

PDF файлfileОбязательно

Поддерживаемые типы: application/pdf

НастройкиНастройте форматы, диапазоны, числа и режимы.2

Режим чанковselectНеобязательноМаксимум символов на чанкnumberНеобязательно

ПереключателиВключайте или отключайте дополнительные режимы.3

Использовать структуру теговcheckboxНеобязательноВключено, если отмеченоСанитизировать чувствительные данныеcheckboxНеобязательноВключено, если отмеченоВключать таблицыcheckboxНеобязательноВключено, если отмечено

Результат

Готово к запуску

После запуска здесь появятся файлы, текст, структурированные данные или потоковый вывод.

Примеры

Примеры для этого инструмента

Связано

Генератор RAG-чанков и citation pack для PDF

С чем помогает этот инструмент

Запустить этот инструмент

Подготовленные примеры запуска

Ввод

Результат

Примеры для этого инструмента

Продолжить с похожими инструментами и темами

Подготовленные примеры запуска

Ввод

Результат

Узнайте, когда использовать этот инструмент, что он поддерживает и как его применяют пользователи.

Ключевые факты

Обзор

Когда использовать

Как это работает

Сценарии использования

Примеры

1. Подготовка финансового отчета для RAG

2. Обработка технической документации

FAQ

PDF Примеры

Примеры Markdown Презентаций

ICS Примеры Планировщика по Часовым Поясам

Примеры субтитров ASS

PDF в чистый текст для LLM

Темы Markdown в PDF

Конвертация PDF/A

PDF в Excel

OCR документов и структурированное извлечение

Инструменты Подготовки PDF для LLM и RAG

Инструменты для чанкинга RAG, очистки корпуса и подготовки к поиску

Инструменты PDF-конвертации и документного экспорта