PDF 页码范围提取器

按指定页码范围提取 PDF 内容,并导出为 Markdown、JSON 或纯文本

上传 PDF 后,填写页码表达式如 1,3,5-7,工具会只处理这些页并导出结果。适合长报告、手册、论文和合同中按章节或附录做局部抽取。

示例结果

1 个示例

只提取报告前两页

真实 sample 已将第 1-2 页导出为 Markdown,适合审阅和二次编辑。

pdf-page-range-extractor-example1.md 查看文件
查看输入参数
{ "pdfFile": "/public/samples/pdf/financial-report-example1.pdf", "exportFormat": "markdown", "pages": "1-2", "useStructTree": true, "keepLineBreaks": true, "includePageSeparators": true }

Click to upload file or drag and drop file here

Maximum file size: 10MB Supported formats: application/pdf

关键信息

分类
开发与 Web
输入类型
file, select, text, checkbox
输出类型
file
样本覆盖
4
支持 API
Yes

概览

PDF 页码范围提取器是一款高效的文档处理工具,允许用户按需提取长篇 PDF 文件中的特定页码内容。只需输入页码范围(如 1,3,5-7),即可精准抓取目标页面,并支持将其导出为 Markdown、JSON 或纯文本格式。该工具完美保留文档结构与换行,特别适合从长篇报告、学术论文或法律合同中快速抽取核心章节或附录,大幅提升数据处理与二次编辑的效率。

适用场景

  • 需要从数百页的财务报告或行业白皮书中单独提取摘要或特定章节时。
  • 准备将长篇 PDF 的部分内容(如附录或数据表)输入给 AI 大模型进行分析,以节省 Token 消耗时。
  • 需要将 PDF 合同中的特定条款页转换为 Markdown 或纯文本以便于二次编辑和存档时。

工作原理

  • 上传需要处理的 PDF 文件。
  • 在“页码范围”输入框中填写需要提取的页码表达式(例如:1,3,5-7)。
  • 选择目标导出格式(Markdown、JSON 或纯文本),并根据需要勾选保留结构树、换行符或插入分页标记。
  • 点击提取,工具将仅解析指定页面并生成对应的文本文件供下载。

使用场景

学术研究人员从长篇论文中提取参考文献或核心实验数据页,导出为 Markdown 方便在笔记软件中整理。
法务人员从冗长的商业合同中抽取特定的责任条款页,转换为纯文本进行快速比对和审查。
数据分析师从企业年报中提取包含财务报表的特定页面,导出为 JSON 格式以便导入数据库分析。

用户案例

1. 提取财务报告核心摘要

投资分析师
背景原因
分析师每天需要阅读大量长达上百页的财报,但通常只关注前几页的执行摘要和核心财务数据。
解决问题
手动复制 PDF 前几页内容容易丢失格式,且整份文件导入 AI 分析工具会超出字数限制。
如何使用
上传财报 PDF 文件,将“页码范围”设置为 1-2,选择导出格式为 Markdown,并勾选保留换行和分页标记。
示例配置
页码范围: 1-2, 导出格式: markdown, 插入分页标记: true
效果
成功将财报的前两页精准提取为格式整洁的 Markdown 文件,可直接用于撰写分析简报或输入给 AI 助手。

2. 抽取产品手册特定章节

技术文档工程师
背景原因
公司有一份 50 页的综合产品手册,现在需要将其中的“故障排除”章节(第 15 到 18 页)单独提取出来更新到在线帮助中心。
解决问题
需要快速将特定页面的内容转换为结构化的文本,以便发布到基于 Markdown 的文档系统中。
如何使用
上传产品手册 PDF,在“页码范围”中输入 15-18,选择 Markdown 格式,并开启“使用结构树”。
示例配置
页码范围: 15-18, 导出格式: markdown, 使用结构树: true
效果
仅解析第 15 至 18 页的内容,生成包含正确标题层级和段落结构的 Markdown 文件,直接复制即可发布。

3. 批量提取合同条款用于自动化处理

自动化开发工程师
背景原因
需要从一批标准格式的租赁合同中提取第 3 页(租金条款)和第 7 页(违约责任),并存入数据库。
解决问题
需要一种机器可读的格式来接收这些不连续页面的文本数据。
如何使用
上传合同 PDF,设置“页码范围”为 3,7,并将“导出格式”选择为 JSON。
示例配置
页码范围: 3,7, 导出格式: json
效果
工具精准提取第 3 页和第 7 页的内容,并输出为结构化的 JSON 文件,方便脚本直接解析和入库。

用 Samples 测试

json, markdown, pdf

相关专题

常见问题

支持哪些页码输入格式?

支持单个页码(如 1,3,5)和连续页码范围(如 5-7),您可以组合使用,例如输入 1,3,5-7。

提取后的内容会保留原有的段落格式吗?

会的。默认开启“使用结构树”和“保留换行”选项,能够最大程度还原 PDF 原有的段落和排版结构。

导出的 Markdown 文件中能区分不同的 PDF 页面吗?

可以。只要勾选“插入分页标记”选项,导出的文件中会在每一页之间自动插入明显的分隔符。

提取 JSON 格式有什么用途?

JSON 格式会将提取的文本结构化,非常适合开发者将其直接集成到自动化脚本、数据库或后续的数据处理流水线中。

处理超大 PDF 文件时会提取全部内容吗?

不会。工具只会精准解析您指定的页码范围,忽略未选中的页面,从而大幅提高处理速度并减少不必要的数据冗余。

API 文档

请求端点

POST /zh/api/tools/pdf-page-range-extractor

请求参数

参数名 类型 必填 描述
pdfFile file (需要先上传) -
exportFormat select -
pages text -
useStructTree checkbox -
keepLineBreaks checkbox -
includePageSeparators checkbox -

文件类型参数需要先通过 POST /upload/pdf-page-range-extractor 上传获取 filePath,然后将 filePath 传递给对应的文件字段。

响应格式

{
  "filePath": "/public/processing/randomid.ext",
  "fileName": "output.ext",
  "contentType": "application/octet-stream",
  "size": 1024,
  "metadata": {
    "key": "value"
  },
  "error": "Error message (optional)",
  "message": "Notification message (optional)"
}
文件: 文件

AI MCP 文档

将此工具添加到您的 MCP 服务器配置中:

{
  "mcpServers": {
    "elysiatools-pdf-page-range-extractor": {
      "name": "pdf-page-range-extractor",
      "description": "按指定页码范围提取 PDF 内容,并导出为 Markdown、JSON 或纯文本",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=pdf-page-range-extractor",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

你可以串联多个工具,比如:`https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`,最多20个。

支持 URL 文件链接或 Base64 编码作为文件参数。

如果遇见问题,请联系我们:[email protected]