文档 OCR 与结构化提取工具
面向扫描 PDF 与文档图片的 OCR 和结构化提取流程,可输出文本、Markdown、JSON、表格、图片说明和 RAG 可用分块。
这个专题聚焦把文档文件转成可复用数据:覆盖图片 OCR、扫描 PDF 恢复、纯文本与 Markdown 提取、结构化 JSON 浏览、表格导出、图片说明索引、页码范围提取,以及面向搜索或 LLM 流程的 chunk 打包。
专题信息
- 任务类型
- extract
- Families
- ocr, pdf, document
- 工具数
- 13
- 子簇
- 3
为什么需要这个专题
文档提取很少只是一步完成,真实流程往往要先做 OCR,再根据后续用途导出成 Markdown、JSON、CSV 或纯文本。
把 OCR、PDF 解析、表格提取和结构化导出放在一起,用户更容易为报告、票据、证件、合同或扫描档案选出合适的提取路径。
专题里配套了 PDF 和图片样例,用户可以先验证识别质量与输出结构,再迁移到真实业务文档。
精选工具
AI图片转Markdown
使用AI视觉模型从图片中提取文本并转换为Markdown格式
发票小票OCR识别
使用AI视觉模型从发票/小票图片中提取关键信息并转换为自定义JSON格式
AI身份证OCR识别
使用AI视觉模型从身份证图片中提取关键信息并转换为JSON格式
PDF OCR 文本层
为扫描版 PDF 添加 OCR 文本层,使其可搜索/可复制
扫描版 PDF OCR 转 Markdown
将扫描版或图片型 PDF 转成 Markdown,优先走 OpenDataLoader hybrid OCR,并在后端不可用时优雅回退
PDF文本提取器
从PDF文档中提取文本内容,支持页面选择、格式选项和多语言处理
PDF转Markdown转换器
将PDF文档转换为Markdown格式,支持文本提取和格式保留
PDF 转 LLM 干净文本
将 PDF 抽取成适合摘要、翻译、向量化和问答的干净纯文本
PDF 转 JSON 结构浏览器
提取 PDF 的 OpenDataLoader JSON 结构,并以浏览器视图查看标题、段落、表格、列表、页码和 bbox
PDF 表格提取到 CSV/JSON
用 OpenDataLoader 从 PDF 中抽取表格,并导出为结构化 JSON、扁平 CSV 或 HTML 表格
PDF RAG 分块与引用包生成器
将 PDF 转成带页码、bbox 与标题路径的 RAG 分块 JSON,便于向量库入库和引用回链
PDF 图片与 Caption 提取器
提取 PDF 图片、匹配附近 caption,并生成可浏览的 HTML 图文索引
PDF 页码范围提取器
按指定页码范围提取 PDF 内容,并导出为 Markdown、JSON 或纯文本
用 Samples 测试
ocr, pdf, document相关专题
PDF 转换与文档导出工具
在一个专题里比较把文档、图片和结构化内容导入或导出 PDF 的工具,适合发布、分享和下游处理工作流。
文本提取工具专题
汇集 15 个可从混合文本、Markdown、HTML 与日志中提取链接、邮箱、手机号、日期、Emoji 和结构化字段的工具。
Markdown 导出、OCR 与文档转换工具
在一个专题中比较 Markdown 转 PDF、PDF 转 Markdown、OCR、幻灯片导出和结构化 Markdown 转换工具,适合文档发布流程。
JSON 交换与格式翻译工具
在一个专题里比较 JSON 与 CSV、YAML、TOML、GraphQL、XML、Markdown、Excel、BSON、EDN 等结构化格式之间的转换工具。
常见问题
这个专题能做什么?
你可以对图片和扫描 PDF 做 OCR,提取纯文本或 Markdown,查看结构化 JSON,导出表格,匹配图片说明,截取指定页,并为 RAG 或 LLM 流程打包文档内容。
这个专题适合谁?
适合研究人员、运营团队、知识库建设者、AI 流程开发者,以及所有需要把文档转成机器可处理内容的人。
应该从哪里开始?
先选择最接近源文档类型的样例,再根据下一步要用的输出选择 OCR、文本清洗、Markdown 导出、JSON 检查或表格提取。