PDF 注释导出

将 PDF 中已有的注释(高亮、批注、印章、链接、标记)导出为 JSON 字符串

读取 PDF 中已嵌入的注释并导出为结构化 JSON 字符串(直接显示在输出区,不生成下载文件)。支持标记(高亮/下划线/删除线)、便签(Text/FreeText)、印章、链接和形状注释。基于 pdf-lib 的纯 JS 实现。

示例结果

1 个示例

导出高亮与批注为 JSON

提取已审阅 PDF 中的标记/便签注释,输出结构化 JSON 字符串。

{
  "sourceFile": "pdf-annotation-export-sample.pdf",
  "count": 2,
  "subtypes": {
    "Highlight": 1,
    "Text": 1
  },
  "annotations": [
    {
      "page": 1,
      "subtype": "Highlight",
      "author": "Alice",
      "text": "important claim",
      "color": "#ffff00"
    },
    {
      "page": 1,
      "subtype": "Text",
      "author": "Bob",
      "text": "Please review this section.",
      "color": "#ffcc00"
    }
  ]
}
查看输入参数
{ "pdfFile": "/public/samples/pdf/pdf-annotation-export-sample.pdf", "includePageNumbers": true }

Click to upload file or drag and drop file here

Maximum file size: 100MB Supported formats: application/pdf

关键信息

分类
文档与 PDF
输入类型
file, checkbox
输出类型
text
样本覆盖
4
支持 API
Yes

概览

PDF 注释导出工具能够快速读取并提取 PDF 文件中已嵌入的各类注释(包括高亮、下划线、删除线、便签批注、印章、链接及形状等),并将其直接转换为结构化的 JSON 字符串显示在输出区,方便您进行后续的数据分析、笔记整理或系统集成。

适用场景

  • 需要将 PDF 电子书或文献中的高亮和读书笔记提取出来导入到 Notion 或 Obsidian 等笔记软件时。
  • 团队协作审阅完 PDF 文档后,需要汇总所有成员的修改批注、印章和标记进行统一归档时。
  • 开发者需要通过程序解析 PDF 文件中的交互式链接、形状或便签数据进行自动化处理时。

工作原理

  • 上传包含高亮、批注、印章或链接等注释的 PDF 文件。
  • 根据需要勾选“包含页码”选项,以便在导出的数据中保留注释所在的具体页码。
  • 工具在浏览器本地使用 pdf-lib 解析 PDF 文件,提取出所有嵌入的注释数据。
  • 提取完成后,结构化的 JSON 字符串将直接显示在输出区域,供您复制使用。

使用场景

学术文献笔记整理:从多篇 PDF 论文中批量提取高亮段落与个人批注,快速生成结构化的 JSON 格式文献笔记。
文档审阅意见汇总:收集多方反馈的 PDF 合同或设计稿,一键导出所有修改批注与印章,便于开发或法务团队快速核对。
自动化数据提取:在自动化工作流中,提取 PDF 报告中的链接和标记数据,用于后续的系统对接或内容分析。

用户案例

1. 提取论文阅读高亮与批注

研究生
背景原因
在阅读英文文献时,使用 PDF 阅读器在多处关键结论上做了黄色高亮,并写下了中文批注,现在需要将这些笔记整理到个人知识库中。
解决问题
手动复制 PDF 中的高亮文本和批注非常繁琐,且容易丢失页码信息。
如何使用
上传标记好的 PDF 文献,勾选“包含页码”选项,点击运行。
示例配置
pdfFile: 'thesis_marked.pdf', includePageNumbers: true
效果
输出区直接生成了包含页码、高亮文本内容、批注作者及颜色的 JSON 字符串,可直接复制并转换为 Markdown 笔记。

2. 汇总合同审阅印章与修改意见

法务专员
背景原因
外部合作方在 PDF 合同中添加了“已核对”印章,并在几处条款旁添加了 FreeText 便签修改意见。
解决问题
需要快速提取出所有修改意见的具体内容和印章状态,以便录入到法务管理系统中。
如何使用
将合作方返回的 PDF 合同上传至工具,保持默认设置运行。
示例配置
pdfFile: 'contract_reviewed.pdf', includePageNumbers: true
效果
成功获取包含 'Stamps' 和 'FreeText' 类型的 JSON 数据,清晰展示了每处修改意见的页码和具体文本。

用 Samples 测试

json, pdf, file

相关专题

常见问题

这个工具会把我的 PDF 文件上传到服务器吗?

不会。本工具基于纯 JS 在浏览器本地运行,您的 PDF 文件不会被上传到任何服务器,确保数据隐私安全。

支持导出哪些类型的 PDF 注释?

支持导出高亮、下划线、删除线等文本标记,便签(Text/FreeText)、印章、链接以及各种形状注释。

导出的结果可以直接下载为文件吗?

导出的 JSON 结果会直接显示在网页的输出文本框中,您可以直接复制,本工具不生成单独的下载文件。

为什么有些 PDF 里的文字高亮没有被导出?

请确保这些高亮是作为 PDF 标准注释(Annotation)添加的,而不是直接合并在 PDF 页面底图中的静态像素或普通图形。

导出的 JSON 数据中包含哪些字段?

默认包含源文件名、注释总数、各类型统计,以及每条注释的具体页码、类型、作者、文本内容和颜色等信息。

API 文档

请求端点

POST /zh/api/tools/pdf-annotation-export

请求参数

参数名 类型 必填 描述
pdfFile file (需要先上传) -
includePageNumbers checkbox -

文件类型参数需要先通过 POST /upload/pdf-annotation-export 上传获取 filePath,然后将 filePath 传递给对应的文件字段。

响应格式

{
  "result": "Processed text content",
  "error": "Error message (optional)",
  "message": "Notification message (optional)",
  "metadata": {
    "key": "value"
  }
}
文本: 文本

AI MCP 文档

将此工具添加到您的 MCP 服务器配置中:

{
  "mcpServers": {
    "elysiatools-pdf-annotation-export": {
      "name": "pdf-annotation-export",
      "description": "将 PDF 中已有的注释(高亮、批注、印章、链接、标记)导出为 JSON 字符串",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=pdf-annotation-export",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

你可以串联多个工具,比如:`https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`,最多20个。

支持 URL 文件链接或 Base64 编码作为文件参数。

如果遇见问题,请联系我们:[email protected]