PDF文本提取器

从PDF文档中提取文本内容，支持页面选择、格式选项和多语言处理

相关标签

文本 238 PDF 113 解析 25 OCR 6

PDF文件 *

Click to upload file or drag and drop file here

Maximum file size: 100MB Supported formats: application/pdf

支持最大100MB的PDF文件

页面范围

指定要提取的页面（1-5为范围，3为单页，1,3,5为多页）。留空则提取所有页面。

输出格式

保持原始格式

尽可能保持原始布局、间距和格式

去除多余空白

清理多余的空格和换行符

包含行号

为提取的文本添加行号

文本编码

关键信息

分类: 文档与 PDF
输入类型: file, text, select, checkbox
输出类型: text
样本覆盖: 4
支持 API: Yes

概览

PDF文本提取器是一款高效的在线工具，旨在帮助用户快速从PDF文档中解析并提取纯文本或结构化内容，支持自定义页面范围、格式保留及多种编码设置，满足各类文档处理需求。

适用场景

•需要从扫描件或电子版PDF中获取可编辑的文本内容时。
•仅需提取文档中特定页码范围的文字信息时。
•在进行数据分析或文档归档前，需要将PDF内容转换为Markdown或JSON格式时。

工作原理

•上传您的PDF文件，支持最大100MB的文档。
•根据需求设置页面范围、输出格式及文本编码等选项。
•点击提取按钮，系统将自动解析文档并生成您所需的文本内容。

使用场景

快速从长篇PDF报告中提取关键段落用于文档撰写。

将PDF格式的表格或列表转换为JSON数据，以便导入数据库。

清理PDF文档中多余的空格和换行符，整理成整洁的Markdown笔记。

用户案例

1. 提取合同关键条款

法务专员

背景原因: 需要从一份50页的PDF合同中提取第10至12页的违约责任条款。
解决问题: 手动复制粘贴容易出错且效率低下。
如何使用: 上传合同文件，在页面范围输入“10-12”，选择输出格式为“Plain Text”。
效果: 快速获取了所需的合同条款文本，直接用于后续的法律分析。

2. 转换技术文档为Markdown

技术文档工程师

背景原因: 需要将一份PDF格式的产品手册转换为Markdown格式，以便发布到公司的知识库。
解决问题: PDF的排版在直接复制时会丢失标题层级和列表结构。
如何使用: 上传手册，勾选“保持原始格式”，并将输出格式设置为“Markdown”。
效果: 生成了带有正确Markdown语法结构的文本，无需手动调整标题和列表格式。

用 Samples 测试

pdf, video, text

2026-02-01 到 2026-02-10 工具生成的PDF示例

title token pdf

Markdown 幻灯片示例

用于测试 PDF 导出的 Remark/Marp 风格 Markdown 幻灯片

preferred input family pdf

含表情符号的文本示例

用于测试表情符号提取的各种语言混合文本和Unicode表情符号

title token text

文本日期示例

包含各种日期格式的文本，用于测试日期提取和解析

title token text

相关专题

PDF 转换与文档导出工具

在一个专题里比较把文档、图片和结构化内容导入或导出 PDF 的工具，适合发布、分享和下游处理工作流。

文档 OCR 与结构化提取工具

面向扫描 PDF 与文档图片的 OCR 和结构化提取流程，可输出文本、Markdown、JSON、表格、图片说明和 RAG 可用分块。

文本大小写、编码与规范化转换工具

在一个专题中比较文本大小写转换、全半角转换、编码转换、Quoted-Printable 处理和行内文本规范化工具。

视频转音频与动画格式转换工具

在一个专题里比较把视频转成音频、提取视频流，以及在短视频与动态图格式之间转换的工具。

常见问题

PDF文本提取器支持多大的文件？

该工具支持最大100MB的PDF文件。

可以只提取PDF中的某几页吗？

可以，您可以在“页面范围”选项中指定页码，例如“1-5”表示提取前五页，或“1,3,5”提取特定单页。

提取后的文本格式可以保留吗？

您可以勾选“保持原始格式”选项，系统将尽可能还原文档中的布局、间距和排版。

支持哪些输出格式？

支持纯文本 (Plain Text)、格式化文本 (Formatted Text)、Markdown 以及 JSON 结构化数据。

提取出的文本出现乱码怎么办？

请检查并调整“文本编码”选项，通常推荐使用 UTF-8 编码以获得最佳的字符兼容性。

API 文档

请求端点

POST /zh/api/tools/pdf-text-extractor

请求参数

参数名	类型	必填	描述
pdfFile	file (需要先上传)	是	支持最大100MB的PDF文件
pageRange	text	否	指定要提取的页面（1-5为范围，3为单页，1,3,5为多页）。留空则提取所有页面。
outputFormat	select	否	-
preserveFormatting	checkbox	否	尽可能保持原始布局、间距和格式
removeExtraWhitespace	checkbox	否	清理多余的空格和换行符
includeLineNumbers	checkbox	否	为提取的文本添加行号
encoding	select	否	-

文件类型参数需要先通过 POST /upload/pdf-text-extractor 上传获取 filePath，然后将 filePath 传递给对应的文件字段。

响应格式

{
  "result": "Processed text content",
  "error": "Error message (optional)",
  "message": "Notification message (optional)",
  "metadata": {
    "key": "value"
  }
}

文本: 文本

AI MCP 文档

将此工具添加到您的 MCP 服务器配置中：

{
  "mcpServers": {
    "elysiatools-pdf-text-extractor": {
      "name": "pdf-text-extractor",
      "description": "从PDF文档中提取文本内容，支持页面选择、格式选项和多语言处理",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=pdf-text-extractor",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

你可以串联多个工具，比如：`https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`，最多20个。

支持 URL 文件链接或 Base64 编码作为文件参数。

如果遇见问题，请联系我们：[email protected]