PDF 转 LLM 干净文本

将 PDF 抽取成适合摘要、翻译、向量化和问答的干净纯文本

上传 PDF 后,工具会以 OpenDataLoader 的 text 模式抽取正文,并结合布局感知阅读顺序、可选的页眉页脚过滤、换行控制和敏感数据脱敏,输出更适合给 LLM 使用的干净文本文件。

示例结果

1 个示例

为摘要和向量化准备干净 PDF 文本

真实 sample 已导出 1073 字节的干净 TXT 文件。

pdf-to-clean-text-for-llm-example1.txt 查看文件
查看输入参数
{ "pdfFile": "/public/samples/pdf/financial-report-example1.pdf", "keepLineBreaks": false, "includeHeaderFooter": false, "useStructTree": true, "sanitizeSensitiveData": true, "includePageSeparators": false, "pages": "" }

Click to upload file or drag and drop file here

Maximum file size: 10MB Supported formats: application/pdf

关键信息

分类
AI 与生成器
输入类型
file, checkbox, text
输出类型
file
样本覆盖
4
支持 API
Yes

概览

PDF 转 LLM 干净文本工具专为大语言模型(LLM)的数据预处理设计,能够将 PDF 文件精准抽取为纯文本格式。该工具采用布局感知技术,支持去除页眉页脚、控制换行符、脱敏敏感数据以及按需提取指定页码,为您提供高度结构化且无冗余的干净文本,是进行文档摘要、机器翻译、RAG 向量化和智能问答的理想前置处理方案。

适用场景

  • 需要将长篇 PDF 报告输入给大语言模型进行总结摘要或全文翻译时。
  • 构建 RAG(检索增强生成)知识库,需要提取无页眉页脚干扰的干净文本进行向量化切分时。
  • 处理包含敏感信息的商业文档,需要在提取文本的同时自动脱敏数据时。

工作原理

  • 上传需要处理的 PDF 文件,并根据需求在设置中指定需要提取的页码范围(如 1,3,5-7)。
  • 勾选或取消相关清洗选项,例如是否保留换行、是否包含页眉页脚、是否插入分页标记以及是否脱敏敏感数据。
  • 工具底层通过 OpenDataLoader 引擎解析 PDF 结构树,按照真实的阅读顺序提取正文内容并应用清洗规则。
  • 处理完成后,直接下载生成的干净 TXT 文本文件,即可无缝接入后续的 LLM 工作流。

使用场景

金融分析师提取公司财报或招股说明书的核心正文,用于输入给 ChatGPT 生成投资摘要。
AI 开发者清洗大量行业标准和技术手册 PDF,作为构建垂直领域 RAG 问答系统的语料库。
法律顾问将长篇合同 PDF 转换为纯文本,并自动脱敏客户个人信息,以便使用 AI 工具进行合同审查。

用户案例

1. 提取财务报告用于 AI 摘要

金融分析师
背景原因
分析师需要将一份 50 页的 PDF 财务报告输入给大模型生成核心摘要,但原文档包含大量页眉、页脚和断句换行,直接复制会导致 AI 理解混乱。
解决问题
去除 PDF 中的页眉页脚和硬换行,获取连贯的纯文本。
如何使用
上传财务报告 PDF,保持「保留换行」和「包含页眉页脚」为未勾选状态,勾选「使用结构树」,点击提取。
示例配置
{"keepLineBreaks": false, "includeHeaderFooter": false, "useStructTree": true}
效果
成功导出一个去除了页眉页脚干扰、段落拼接完整的 TXT 文件,直接输入给大模型后生成的摘要准确度大幅提升。

2. 构建 RAG 知识库的语料清洗

AI 知识库管理员
背景原因
需要将一批包含客户隐私数据的产品手册 PDF 转化为向量数据库的切片语料。
解决问题
提取指定页码的正文内容,同时必须脱敏文档中的敏感信息,并插入分页标记以便后续切块。
如何使用
上传产品手册 PDF,在「页码范围」输入需要提取的章节页码(如 10-25),勾选「脱敏敏感数据」和「插入分页标记」。
示例配置
{"sanitizeSensitiveData": true, "includePageSeparators": true, "pages": "10-25"}
效果
导出的 TXT 文件仅包含第 10 至 25 页的内容,敏感数据已被安全掩码,且每页之间带有明确的分页标记,完美适配文本切分工具。

用 Samples 测试

pdf, text, barcode

相关专题

常见问题

提取的文本会包含原文档的页眉和页脚吗?

默认情况下不会包含。如果您需要保留这些信息,可以在设置中勾选「包含页眉页脚」选项。

如何只提取 PDF 中的某几页?

您可以在「页码范围」输入框中指定需要提取的页码,例如输入「1,3,5-7」即可仅提取第1页、第3页以及第5至7页的内容。

脱敏敏感数据功能会处理哪些内容?

勾选「脱敏敏感数据」后,工具会在提取文本时自动识别并掩码常见的敏感信息(如电话号码、邮箱等),保护数据隐私。

提取出来的文本格式是什么?

工具会输出一个纯文本(TXT)文件,去除了复杂的排版和冗余字符,非常适合直接输入给大语言模型或用于向量化处理。

为什么默认取消了保留换行?

PDF 中的硬换行往往会截断完整的句子,影响 LLM 的理解和翻译质量。取消保留换行可以将段落拼接完整,提供更连贯的上下文。

API 文档

请求端点

POST /zh/api/tools/pdf-to-clean-text-for-llm

请求参数

参数名 类型 必填 描述
pdfFile file (需要先上传) -
keepLineBreaks checkbox -
includeHeaderFooter checkbox -
useStructTree checkbox -
sanitizeSensitiveData checkbox -
includePageSeparators checkbox -
pages text -

文件类型参数需要先通过 POST /upload/pdf-to-clean-text-for-llm 上传获取 filePath,然后将 filePath 传递给对应的文件字段。

响应格式

{
  "filePath": "/public/processing/randomid.ext",
  "fileName": "output.ext",
  "contentType": "application/octet-stream",
  "size": 1024,
  "metadata": {
    "key": "value"
  },
  "error": "Error message (optional)",
  "message": "Notification message (optional)"
}
文件: 文件

AI MCP 文档

将此工具添加到您的 MCP 服务器配置中:

{
  "mcpServers": {
    "elysiatools-pdf-to-clean-text-for-llm": {
      "name": "pdf-to-clean-text-for-llm",
      "description": "将 PDF 抽取成适合摘要、翻译、向量化和问答的干净纯文本",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=pdf-to-clean-text-for-llm",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

你可以串联多个工具,比如:`https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`,最多20个。

支持 URL 文件链接或 Base64 编码作为文件参数。

如果遇见问题,请联系我们:[email protected]