分类

Word文本提取器

从Word文档中提取文本内容,支持格式选项、段落选择和多语言处理

Click to upload file or drag and drop file here

Maximum file size: 50MB Supported formats: application/vnd.openxmlformats-officedocument.wordprocessingml.document, application/msword

支持最大50MB的Word文档(.docx, .doc)

指定要提取的段落(1-10为范围,5为单段落,1,3,5为多段落)。留空则提取所有段落。

尽可能保持原始布局、间距和格式

清理多余的空格和换行符

为提取的文本添加行号

关键信息

分类
Document Tools
输入类型
file, text, select, checkbox
输出类型
text
样本覆盖
4
支持 API
Yes

概览

Word文本提取器是一款高效的在线文档处理工具,能够快速从 .docx 或 .doc 文件中精准提取文本内容。它支持自定义段落范围、多种输出格式(如 Markdown 或 JSON)以及格式保留选项,帮助用户轻松完成文档内容的解析与转换。

适用场景

  • 需要从长篇Word文档中快速提取特定段落或章节内容时。
  • 需要将Word文档转换为纯文本、Markdown 或 JSON 格式以便进行二次开发时。
  • 需要清理文档中多余的空白字符或统一文本编码格式时。

工作原理

  • 上传您的 Word 文档(支持 .docx 和 .doc 格式,最大 50MB)。
  • 根据需求设置段落范围、输出格式及格式保留选项。
  • 点击提取按钮,系统将自动解析文档并生成您所需的文本内容。

使用场景

内容创作者:快速从草稿文档中提取核心段落用于发布到博客或社交媒体。
数据分析师:将文档内容解析为 JSON 结构,以便导入数据库进行自动化处理。
行政办公:批量清理文档中的多余空格和换行,统一文档的排版格式。

用户案例

1. 提取报告核心章节

研究员
背景原因
需要从一份 50 页的行业研究报告中提取第 3 到第 5 章的内容进行引用。
解决问题
手动复制粘贴容易出错且排版混乱。
如何使用
上传报告文件,在“段落范围”输入“3-5”,选择“Markdown”格式。
示例配置
paragraphRange: 3-5, outputFormat: markdown, preserveFormatting: true
效果
精准获取了指定章节的 Markdown 文本,保留了原有的标题层级和列表格式。

2. 文档数据结构化

开发人员
背景原因
需要将一份包含产品说明的 Word 文档转换为 JSON 格式,以便集成到前端应用中。
解决问题
手动转换格式耗时且容易产生语法错误。
如何使用
上传产品说明文档,在“输出格式”中选择“JSON”。
示例配置
outputFormat: json, removeExtraWhitespace: true
效果
生成了结构化的 JSON 数据,去除了多余的空白符,可直接用于程序调用。

用 Samples 测试

xml, video, text

相关专题

常见问题

支持哪些 Word 文件格式?

支持标准的 .docx 和 .doc 格式文档。

可以只提取文档中的某几段吗?

可以,通过“段落范围”选项,您可以输入如“1-5”或“1,3,5”来指定提取特定段落。

提取后的文本格式会丢失吗?

您可以勾选“保持原始格式”选项,系统将尽可能保留文档的布局和间距。

支持将提取的内容直接转换为 Markdown 吗?

支持,在“输出格式”选项中选择“Markdown”即可直接获取转换后的内容。

文件大小有限制吗?

支持最大 50MB 的 Word 文档上传。

API 文档

请求端点

POST /zh/api/tools/word-text-extractor

请求参数

参数名 类型 必填 描述
wordFile file (需要先上传) 支持最大50MB的Word文档(.docx, .doc)
paragraphRange text 指定要提取的段落(1-10为范围,5为单段落,1,3,5为多段落)。留空则提取所有段落。
outputFormat select -
preserveFormatting checkbox 尽可能保持原始布局、间距和格式
removeExtraWhitespace checkbox 清理多余的空格和换行符
includeLineNumbers checkbox 为提取的文本添加行号
encoding select -

文件类型参数需要先通过 POST /upload/word-text-extractor 上传获取 filePath,然后将 filePath 传递给对应的文件字段。

响应格式

{
  "result": "Processed text content",
  "error": "Error message (optional)",
  "message": "Notification message (optional)",
  "metadata": {
    "key": "value"
  }
}
文本: 文本

AI MCP 文档

将此工具添加到您的 MCP 服务器配置中:

{
  "mcpServers": {
    "elysiatools-word-text-extractor": {
      "name": "word-text-extractor",
      "description": "从Word文档中提取文本内容,支持格式选项、段落选择和多语言处理",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=word-text-extractor",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

你可以串联多个工具,比如:`https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`,最多20个。

支持 URL 文件链接或 Base64 编码作为文件参数。

如果遇见问题,请联系我们:[email protected]