PDF 图片与 Caption 提取器

提取 PDF 图片、匹配附近 caption,并生成可浏览的 HTML 图文索引

上传 PDF 后,工具会导出图片资源、解析结构化 JSON,并按照页码和位置为每张图匹配附近的 caption,最后生成可浏览的 HTML 报告。

示例结果

1 个示例

提取 PDF 图片与附近 caption

真实 sample 已生成可浏览的 HTML 图文索引报告。

pdf-image-caption-extractor-example1.html 查看文件
查看输入参数
{ "pdfFile": "/public/samples/pdf/pdf-image-caption-extractor-source-example1.pdf", "imageFormat": "png", "pages": "", "useStructTree": true }

Click to upload file or drag and drop file here

Maximum file size: 10MB Supported formats: application/pdf

关键信息

分类
图像、音频与视频
输入类型
file, select, text, checkbox
输出类型
html
样本覆盖
4
支持 API
Yes

概览

这款 PDF 图片与 Caption 提取器能够自动从 PDF 文档中批量导出图片,并智能匹配图片附近的图注(Caption)。只需上传 PDF 文件,工具即可解析文档底层结构,将提取的图片与对应的文本说明组合,最终生成一份直观、可浏览的 HTML 图文索引报告,极大提升学术论文、产品手册或研究报告的配图整理效率。

适用场景

  • 需要从长篇学术论文或研究报告中批量提取配图及对应图注时。
  • 整理产品说明书或操作手册,需将插图与说明文字分离归档时。
  • 制作演示文稿(PPT)或撰写新文档,需要复用历史 PDF 中的图文素材时。

工作原理

  • 上传需要处理的 PDF 文件,并可选择性地指定需要提取的页码范围(如 1,3,5-7)。
  • 选择导出的图片格式(PNG 或 JPEG),并勾选是否使用结构树(StructTree)以提高解析准确度。
  • 工具自动解析 PDF 底层结构,提取图片资源并根据页面坐标匹配最近的文本作为图注。
  • 处理完成后,下载生成的 HTML 报告,直接在浏览器中预览所有提取的图文组合。

使用场景

学术研究人员整理文献:快速从大量 PDF 论文中提取实验数据图表及说明,建立个人的图文参考资料库。
内容编辑重构文档:将旧版 PDF 格式的产品手册拆解,提取出所有产品配图和描述,用于重新排版或发布到网页。
数据分析师提取报告图表:从行业研究报告中批量抓取统计图表及对应的分析结论(Caption),用于二次分析或汇报。

用户案例

1. 提取学术论文中的实验图表

科研人员
背景原因
正在撰写综述文章,需要引用多篇 PDF 格式文献中的实验结果图及图注。
解决问题
手动截图并复制图注效率极低,且容易导致图片模糊或图注对应错误。
如何使用
上传文献 PDF,将图片格式设置为 PNG 以保证清晰度,勾选“使用结构树”。
示例配置
图片格式: PNG, 使用结构树: true
效果
成功生成 HTML 索引,所有实验图表与对应的“Figure 1...”图注完美匹配,可直接保存和引用。

2. 提取产品手册特定页面的插图

技术文档工程师
背景原因
需要更新公司某款设备的操作指南,旧版指南仅有 PDF 格式。
解决问题
只需要提取第 10 到 15 页的设备拆解图及零件说明,不需要全篇提取。
如何使用
上传产品手册 PDF,在“页码范围”中输入“10-15”,选择 JPEG 格式以减小文件体积。
示例配置
图片格式: JPEG, 页码范围: 10-15
效果
快速导出了第 10 至 15 页的所有拆解图,并在 HTML 报告中清晰展示了每张图对应的零件说明文字。

用 Samples 测试

html, pdf, image

相关专题

常见问题

支持提取哪些格式的图片?

工具支持将 PDF 中的图片导出为 PNG 或 JPEG 格式,您可以在提取前通过选项进行设置。

如何只提取特定页面的图片?

您可以在“页码范围”输入框中指定页码,例如输入“1,3,5-7”,工具将仅解析这些页面的内容。

“使用结构树”选项有什么作用?

勾选此选项后,工具会利用 PDF 内部的标签结构树(如果存在)来更精准地识别图片和图注的逻辑关系,提升匹配准确率。

提取后的结果是什么格式?

最终输出的是一个包含 HTML 文件的报告,您可以在浏览器中直接打开,直观地浏览图片及其对应的图注文本。

如果 PDF 是纯扫描件,还能提取图注吗?

本工具依赖 PDF 的底层文本和结构数据。如果是未经过 OCR 处理的纯图片扫描件,将无法提取到文本图注。

API 文档

请求端点

POST /zh/api/tools/pdf-image-caption-extractor

请求参数

参数名 类型 必填 描述
pdfFile file (需要先上传) -
imageFormat select -
pages text -
useStructTree checkbox -

文件类型参数需要先通过 POST /upload/pdf-image-caption-extractor 上传获取 filePath,然后将 filePath 传递给对应的文件字段。

响应格式

{
  "result": "
Processed HTML content
", "error": "Error message (optional)", "message": "Notification message (optional)", "metadata": { "key": "value" } }
HTML: HTML

AI MCP 文档

将此工具添加到您的 MCP 服务器配置中:

{
  "mcpServers": {
    "elysiatools-pdf-image-caption-extractor": {
      "name": "pdf-image-caption-extractor",
      "description": "提取 PDF 图片、匹配附近 caption,并生成可浏览的 HTML 图文索引",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=pdf-image-caption-extractor",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

你可以串联多个工具,比如:`https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`,最多20个。

支持 URL 文件链接或 Base64 编码作为文件参数。

如果遇见问题,请联系我们:[email protected]