关键信息
- 分类
- 文档与 PDF
- 输入类型
- file, select, checkbox
- 输出类型
- file
- 样本覆盖
- 4
- 支持 API
- Yes
概览
本工具支持将 PDF 文档快速转换为 HTML 网页或 Markdown 格式,在保留原始排版、字体样式和文档结构的同时,方便您在网页端直接浏览、嵌入或进行二次编辑。
适用场景
- •需要将 PDF 格式的报告、论文或产品说明书发布到网站上,供用户直接在线阅读时。
- •想要提取 PDF 中的文本内容并保留其基本的 HTML 标签结构,以便导入到内容管理系统(CMS)中。
- •需要将 PDF 转换为纯文本或 Markdown 格式,以便进行文档归档或进一步的文本分析。
工作原理
- •上传需要转换的 PDF 文件(支持最大 50MB 的文档)。
- •选择输出格式,包括带样式的完整 HTML、仅包含内容的 HTML 或原始 Markdown 格式。
- •根据需要勾选是否保留 CSS 样式,然后点击转换按钮。
- •转换完成后,直接下载生成的 HTML 或 Markdown 文件。
使用场景
用户案例
1. 快速发布 PDF 格式的产品白皮书到公司官网
网站运营专员- 背景原因
- 运营专员需要将一份 20 页的 PDF 产品白皮书发布到公司官网上,要求用户无需下载 PDF 即可直接在网页上阅读,且保留原有的排版样式。
- 解决问题
- 手动重构 HTML 页面耗时耗力,且容易出现排版错误。
- 如何使用
- 上传白皮书 PDF 文件,在“输出格式”中选择“Full HTML with Styles”(带样式的完整 HTML),并勾选“包含CSS样式”。
- 示例配置
-
{ "outputFormat": "styled", "includeStyles": true } - 效果
- 获得一个包含完整 CSS 样式的 HTML 文件,直接上传至服务器即可完美还原 PDF 的视觉效果。
2. 提取 PDF 报告内容导入 CMS 系统
自媒体编辑- 背景原因
- 编辑收到一份行业分析 PDF 报告,需要将其中的文字和段落结构导入到 WordPress 后台发布。
- 解决问题
- 直接复制 PDF 文本会丢失段落换行和加粗等格式,夹杂大量乱码。
- 如何使用
- 上传 PDF 报告,将“输出格式”设置为“Content HTML Only”(仅内容 HTML),不附带冗余的全局样式。
- 示例配置
-
{ "outputFormat": "content-only", "includeStyles": false } - 效果
- 生成干净的 HTML 片段,保留了 p、h1、strong 等基础标签,直接粘贴到 CMS 编辑器中即可完美呈现。
用 Samples 测试
html, pdf, file相关专题
常见问题
转换后的 HTML 会保留 PDF 的原始排版吗?
选择“带样式的完整 HTML”并勾选“包含CSS样式”可以最大程度保留原始排版和字体结构。
支持转换扫描版的 PDF 吗?
本工具主要针对含有文本图层的 PDF 进行结构化转换,暂不支持对纯图片扫描件进行 OCR 文字识别。
转换后的 HTML 文件可以直接在浏览器中打开吗?
可以,生成的 HTML 文件是标准的网页格式,双击即可在任何主流浏览器中直接预览。
转换过程中我的文件安全吗?
安全,我们采用安全的传输协议,且文件仅用于转换处理,不会被长期存储或泄露。
为什么转换出来的 HTML 排版有些许错位?
复杂的 PDF 布局在转换为网页流式布局时可能会有微调,建议选择“仅内容”格式以获取更干净的 HTML 结构。