分类

汉字提取器

从文本中提取所有中文字符,过滤掉标点符号、英文字母、数字和非中文符号

提取时包含中文标点符号(,。!?、;:""''()【】《》)

选择如何提取中文内容

仅返回唯一的字符/词语/短语(删除重复项)

关键信息

分类
Text Processing
输入类型
textarea, checkbox, select
输出类型
json
样本覆盖
4
支持 API
Yes

概览

汉字提取器是一款专业的文本处理工具,专门用于从混合文本中精准提取中文字符,同时过滤掉英文字母、数字、标点符号等非中文内容,支持多种提取模式和自定义选项。

适用场景

  • 当需要从包含中英文、数字或符号的混合文本中分离出纯中文内容时。
  • 当进行中文文本分析或数据清洗,需要去除干扰字符以提高准确性时。
  • 当需要提取文本中的中文词语、短语或唯一字符序列用于进一步处理时。

工作原理

  • 在输入框中粘贴或输入包含中文字符的文本。
  • 根据需要选择是否包含中文标点符号,并选择提取模式(单个字符、词语序列或短语)。
  • 可选勾选“仅唯一值”以去除重复项,然后点击提取按钮获取JSON格式的结果。

使用场景

文本清洗:从网页抓取、文档或日志中提取纯中文文本,用于内容整理或分析。
数据分析:在自然语言处理任务中预处理中文数据,如情感分析或关键词提取。
语言学习:帮助学习者从混合文本中识别和提取中文词汇,辅助词汇积累。

用户案例

1. 提取纯中文字符

数据分析师
背景原因
有一份包含中英文混合的客户反馈文本,需要提取中文部分进行情感分析。
解决问题
文本中夹杂英文字母和数字,手动提取中文字符耗时且易出错。
如何使用
将文本粘贴到输入框,选择“单个字符”模式,不勾选包含标点,点击提取。
效果
获得一个JSON列表,包含所有纯中文字符,便于后续分析处理。

2. 提取唯一中文词语

语言研究者
背景原因
处理一篇中文文章,需要提取常用词语以研究词汇频率。
解决问题
文章中词语重复出现,手动去重和提取效率低下。
如何使用
输入文章文本,选择“词语”模式,勾选“仅唯一值”以去除重复项。
示例配置
{"mode": "words", "uniqueOnly": true}
效果
输出一个去重后的中文词语列表,可用于词汇统计或学习。

3. 提取中文短语用于翻译

翻译人员
背景原因
收到一份中英混合的技术文档,需要提取中文短语进行准确翻译。
解决问题
文档中短语分散,直接翻译容易遗漏上下文。
如何使用
粘贴文档内容,选择“短语”模式,包含标点以保持短语完整性。
效果
获得一个中文短语列表,便于逐个翻译和对照原文。

用 Samples 测试

image, video, text

相关专题

常见问题

工具支持哪些提取模式?

支持三种模式:单个字符(每个字符独立提取)、词语序列(连续中文字符序列)和短语(词组或短语)。

如何包含中文标点符号?

在选项中勾选“包含中文标点符号”,即可在提取时包括中文标点如逗号、句号等。

输出结果是什么格式?

输出为JSON格式,包含一个列表,列出提取的中文字符、词语或短语。

可以处理多长的文本?

工具支持处理较长文本,但建议文本长度适中以确保处理速度和准确性。

提取的词语是如何定义的?

词语模式基于连续中文字符序列,短语模式则尝试识别常见的词组或短语结构。

API 文档

请求端点

POST /zh/api/tools/chinese-character-extractor

请求参数

参数名 类型 必填 描述
text textarea -
includePunctuation checkbox 提取时包含中文标点符号(,。!?、;:""''()【】《》)
mode select 选择如何提取中文内容
uniqueOnly checkbox 仅返回唯一的字符/词语/短语(删除重复项)

响应格式

{
  "key": {...},
  "metadata": {
    "key": "value"
  },
  "error": "Error message (optional)",
  "message": "Notification message (optional)"
}
JSON数据: JSON数据

AI MCP 文档

将此工具添加到您的 MCP 服务器配置中:

{
  "mcpServers": {
    "elysiatools-chinese-character-extractor": {
      "name": "chinese-character-extractor",
      "description": "从文本中提取所有中文字符,过滤掉标点符号、英文字母、数字和非中文符号",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=chinese-character-extractor",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

你可以串联多个工具,比如:`https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`,最多20个。

如果遇见问题,请联系我们:[email protected]