“按标题聚合”和“逐元素分块”有什么区别？

按标题聚合会根据文档目录结构将内容归类，适合保持上下文；逐元素分块则将每个段落或表格视为独立块，适合精细化检索。

导出的 JSON 文件可以直接用于向量数据库吗？

可以，生成的 JSON 结构包含了文本内容及其对应的元数据，非常适合直接映射到向量数据库的 Metadata 字段。

工具如何处理 PDF 中的表格？

开启“包含表格节点”后，工具会将表格识别为独立单元，并保留其在文档中的位置信息，方便 AI 针对表格数据进行回答。

Bounding Box 信息有什么用途？

Bounding Box 记录了文本在页面上的具体坐标，前端界面可以利用这些数据在 PDF 预览器中高亮显示 AI 引用的原文区域。

最大字符数设置多少比较合适？

通常建议设置在 500 到 1000 字符之间，这能平衡语义完整性与向量检索的精度，具体取决于您的 Embedding 模型限制。

Elysia Tools

导航

AI Tools

PDF RAG 分块与引用包生成器

将 PDF 转成带页码、bbox 与标题路径的 RAG 分块 JSON，便于向量库入库和引用回链

详情

这个工具可以帮你完成什么

上传 PDF 后，工具会调用 OpenDataLoader 输出 JSON，再把段落、列表、标题和表格整理成适合检索增强生成的 chunk。每个 chunk 都会附带页码、bounding box 和标题路径，方便向量检索、答案引用和 PDF 定位。

执行

运行这个工具

填写表单、运行工具，并在同一页面查看结果。

预设示例运行

点击示例可自动填充表单；文件类型仍需手动上传。

1 个示例

为财务报告准备 RAG 引用包

真实测试生成了 2 个 chunk 和 57 个语义节点，适合向量库入库与回答引用。

{
  "type": "file",
  "filePath": "/public/samples/json/pdf-rag-chunker-citation-pack-example1.json"
}

输入参数

填写必要字段后运行工具。

6 个选项

文件上传此流程需要的源文件。1

PDF 文件file必填

支持格式：application/pdf

参数设置调整格式、范围、数值和模式。2

分块模式select可选每块最大字符数number可选

开关选项启用或关闭可选行为。3

使用结构树checkbox可选勾选后启用脱敏敏感数据checkbox可选勾选后启用包含表格节点checkbox可选勾选后启用

结果

等待运行

运行工具后，这里会展示文件、文本、结构化数据或流式返回结果。

案例

PDF RAG 分块与引用包生成器

这个工具可以帮你完成什么

运行这个工具

预设示例运行

输入参数

结果

与这个工具匹配的案例

继续查看相关工具与专题

预设示例运行

输入参数

结果

详细了解工具的适用范围、支持能力及用户案例。

关键事实

概览

适用场景

使用方式

常见用途

示例

1. 财务报告 RAG 预处理

2. 技术手册语义分块

常见问题

PDF示例

Markdown 幻灯片示例

时区协作排期器 ICS 样本

ASS 字幕样例

PDF 转 LLM 干净文本

Markdown转PDF主题包

PDF/A 转换

PDF转Excel

文档 OCR 与结构化提取工具

PDF 转 LLM 与 RAG 预处理工具

RAG 分块、语料清洗与检索准备工具

PDF 转换与文档导出工具