PDF转HTML

将PDF文档转换为HTML网页,保留格式和结构

使用纯Node.js将PDF文档转换为HTML格式。

示例结果

1 个示例

PDF文档转HTML

将PDF文档转换为带样式的HTML网页

pdf-to-html-output.html 查看文件
查看输入参数
{ "sourceFile": "/public/samples/pdf/document.pdf", "outputFormat": "styled", "includeStyles": true }

Click to upload file or drag and drop file here

Maximum file size: 50MB Supported formats: application/pdf

关键信息

分类
文档与 PDF
输入类型
file, select, checkbox
输出类型
file
样本覆盖
4
支持 API
Yes

概览

本工具支持将 PDF 文档快速转换为 HTML 网页或 Markdown 格式,在保留原始排版、字体样式和文档结构的同时,方便您在网页端直接浏览、嵌入或进行二次编辑。

适用场景

  • 需要将 PDF 格式的报告、论文或产品说明书发布到网站上,供用户直接在线阅读时。
  • 想要提取 PDF 中的文本内容并保留其基本的 HTML 标签结构,以便导入到内容管理系统(CMS)中。
  • 需要将 PDF 转换为纯文本或 Markdown 格式,以便进行文档归档或进一步的文本分析。

工作原理

  • 上传需要转换的 PDF 文件(支持最大 50MB 的文档)。
  • 选择输出格式,包括带样式的完整 HTML、仅包含内容的 HTML 或原始 Markdown 格式。
  • 根据需要勾选是否保留 CSS 样式,然后点击转换按钮。
  • 转换完成后,直接下载生成的 HTML 或 Markdown 文件。

使用场景

网站管理员将 PDF 格式的官方公告和政策文件转换为 HTML 网页,提升网站的 SEO 友好度和加载速度。
文案编辑将 PDF 电子书转换为 Markdown 格式,方便导入到 Notion 或 Obsidian 等笔记软件中编辑。
开发者将 PDF 格式的技术文档转换为纯内容 HTML,以便无缝嵌入到现有的 Web 帮助中心页面中。

用户案例

1. 快速发布 PDF 格式的产品白皮书到公司官网

网站运营专员
背景原因
运营专员需要将一份 20 页的 PDF 产品白皮书发布到公司官网上,要求用户无需下载 PDF 即可直接在网页上阅读,且保留原有的排版样式。
解决问题
手动重构 HTML 页面耗时耗力,且容易出现排版错误。
如何使用
上传白皮书 PDF 文件,在“输出格式”中选择“Full HTML with Styles”(带样式的完整 HTML),并勾选“包含CSS样式”。
示例配置
{
  "outputFormat": "styled",
  "includeStyles": true
}
效果
获得一个包含完整 CSS 样式的 HTML 文件,直接上传至服务器即可完美还原 PDF 的视觉效果。

2. 提取 PDF 报告内容导入 CMS 系统

自媒体编辑
背景原因
编辑收到一份行业分析 PDF 报告,需要将其中的文字和段落结构导入到 WordPress 后台发布。
解决问题
直接复制 PDF 文本会丢失段落换行和加粗等格式,夹杂大量乱码。
如何使用
上传 PDF 报告,将“输出格式”设置为“Content HTML Only”(仅内容 HTML),不附带冗余的全局样式。
示例配置
{
  "outputFormat": "content-only",
  "includeStyles": false
}
效果
生成干净的 HTML 片段,保留了 p、h1、strong 等基础标签,直接粘贴到 CMS 编辑器中即可完美呈现。

用 Samples 测试

html, pdf, file

相关专题

常见问题

转换后的 HTML 会保留 PDF 的原始排版吗?

选择“带样式的完整 HTML”并勾选“包含CSS样式”可以最大程度保留原始排版和字体结构。

支持转换扫描版的 PDF 吗?

本工具主要针对含有文本图层的 PDF 进行结构化转换,暂不支持对纯图片扫描件进行 OCR 文字识别。

转换后的 HTML 文件可以直接在浏览器中打开吗?

可以,生成的 HTML 文件是标准的网页格式,双击即可在任何主流浏览器中直接预览。

转换过程中我的文件安全吗?

安全,我们采用安全的传输协议,且文件仅用于转换处理,不会被长期存储或泄露。

为什么转换出来的 HTML 排版有些许错位?

复杂的 PDF 布局在转换为网页流式布局时可能会有微调,建议选择“仅内容”格式以获取更干净的 HTML 结构。

API 文档

请求端点

POST /zh/api/tools/pdf-to-html

请求参数

参数名 类型 必填 描述
sourceFile file (需要先上传) -
outputFormat select -
includeStyles checkbox -

文件类型参数需要先通过 POST /upload/pdf-to-html 上传获取 filePath,然后将 filePath 传递给对应的文件字段。

响应格式

{
  "filePath": "/public/processing/randomid.ext",
  "fileName": "output.ext",
  "contentType": "application/octet-stream",
  "size": 1024,
  "metadata": {
    "key": "value"
  },
  "error": "Error message (optional)",
  "message": "Notification message (optional)"
}
文件: 文件

AI MCP 文档

将此工具添加到您的 MCP 服务器配置中:

{
  "mcpServers": {
    "elysiatools-pdf-to-html": {
      "name": "pdf-to-html",
      "description": "将PDF文档转换为HTML网页,保留格式和结构",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=pdf-to-html",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

你可以串联多个工具,比如:`https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`,最多20个。

支持 URL 文件链接或 Base64 编码作为文件参数。

如果遇见问题,请联系我们:[email protected]