PDF 图片与 Caption 提取器

提取 PDF 图片、匹配附近 caption,并生成可浏览的 HTML 图文索引

上传 PDF 后,工具会导出图片资源、解析结构化 JSON,并按照页码和位置为每张图匹配附近的 caption,最后生成可浏览的 HTML 报告。

示例结果

1 个示例

提取 PDF 图片与附近 caption

真实 sample 已生成可浏览的 HTML 图文索引报告。

pdf-image-caption-extractor-example1.html 查看文件
查看输入参数
{ "pdfFile": "/public/samples/pdf/pdf-image-caption-extractor-source-example1.pdf", "imageFormat": "png", "pages": "", "useStructTree": true }

Click to upload file or drag and drop file here

Maximum file size: 10MB Supported formats: application/pdf

关键信息

分类
图像、音频与视频
输入类型
file, select, text, checkbox
输出类型
html
样本覆盖
4
支持 API
Yes

概览

PDF 图片与 Caption 提取器是一款高效的实用工具,能够从 PDF 文档中自动识别并提取所有图片资源,同时智能匹配其附近的说明文字(Caption),并最终生成一个结构清晰、可直接浏览的 HTML 图文索引报告,极大地方便了文档素材的整理与二次利用。

适用场景

  • 需要从学术论文或教科书中批量提取插图及其对应的文字说明时。
  • 整理企业年度报告或技术文档中的图表,并需要保留其上下文描述时。
  • 归档设计文档或产品手册中的视觉资产,以便快速检索和分类时。

工作原理

  • 上传需要处理的 PDF 文件,并根据需要指定特定的页码范围和输出图片格式(PNG 或 JPEG)。
  • 系统解析 PDF 的内部结构树,提取嵌入的图像资源并将其转换为指定的图像格式。
  • 算法自动扫描图像周边的文本块,根据空间位置关系识别并关联最匹配的 Caption 说明文字。
  • 汇总所有提取的图文信息,生成一个包含图片预览、对应文字及页码信息的 HTML 索引包。

使用场景

论文文献整理:快速提取数百篇 PDF 论文中的实验图表和图注,方便撰写综述或进行学术汇报。
电商画册归档:从 PDF 格式的产品目录中批量提取商品图片和对应的型号、规格描述。
教学素材制作:教师从电子教材中批量获取插图和解释文字,用于制作高质量的教学课件。

用户案例

1. 学术论文图表批量提取

科研人员
背景原因
用户正在撰写文献综述,需要从多篇 PDF 格式的学术论文中提取实验结果图和对应的 Figure Caption。
解决问题
手动截图和复制文字效率极低,且难以保持图文的一一对应关系。
如何使用
上传论文 PDF,选择 PNG 格式,勾选“使用结构树”以确保图注匹配的准确性。
效果
获得一个 HTML 报告,所有论文插图按顺序排列,每张图下方清晰显示了对应的图注文字。

2. 企业年报图表数字化

财务分析师
背景原因
需要将公司历年 PDF 版年报中的财务趋势图提取出来,用于内部数据库备案和对比分析。
解决问题
年报页面动辄上百页,手动寻找图表并记录其含义非常耗时且容易遗漏。
如何使用
上传年报 PDF,设置页码范围为包含财务报表的特定章节(如 50-80 页),点击开始提取。
效果
快速生成了包含所有关键财务图表的索引页面,每个图表都自动关联了年报中的标题说明,方便直接引用。

用 Samples 测试

html, pdf, image

相关专题

常见问题

支持导出哪些图片格式?

目前支持将 PDF 中的图片导出为 PNG 或 JPEG 格式。

“使用结构树”选项有什么作用?

开启后,工具将利用 PDF 内部的语义结构信息,从而更准确地匹配图片与其对应的标题文字。

我可以只提取特定页面的图片吗?

可以,在“页码范围”输入框中指定如“1,3,5-10”即可仅处理特定页面。

提取后的结果如何查看?

工具会生成一个 HTML 文件,您可以直接在任何现代浏览器中打开,查看所有提取出的图片及其匹配的说明。

如果图片在 PDF 中没有说明文字会怎样?

工具仍会提取该图片,但对应的 Caption 字段将为空,或仅显示其所在的页码位置。

API 文档

请求端点

POST /zh/api/tools/pdf-image-caption-extractor

请求参数

参数名 类型 必填 描述
pdfFile file (需要先上传) -
imageFormat select -
pages text -
useStructTree checkbox -

文件类型参数需要先通过 POST /upload/pdf-image-caption-extractor 上传获取 filePath,然后将 filePath 传递给对应的文件字段。

响应格式

{
  "result": "
Processed HTML content
", "error": "Error message (optional)", "message": "Notification message (optional)", "metadata": { "key": "value" } }
HTML: HTML

AI MCP 文档

将此工具添加到您的 MCP 服务器配置中:

{
  "mcpServers": {
    "elysiatools-pdf-image-caption-extractor": {
      "name": "pdf-image-caption-extractor",
      "description": "提取 PDF 图片、匹配附近 caption,并生成可浏览的 HTML 图文索引",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=pdf-image-caption-extractor",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

你可以串联多个工具,比如:`https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`,最多20个。

支持 URL 文件链接或 Base64 编码作为文件参数。

如果遇见问题,请联系我们:[email protected]