文本还原器

快速将包含伪字符的伪文本转换为常规文本

相关标签

文本 238 文本处理 146

关键信息

分类: 文本与写作
输入类型: textarea, select, checkbox
输出类型: text
样本覆盖: 4
支持 API: Yes

概览

文本还原器是一款高效的文本处理工具，旨在帮助用户快速识别并移除文本中的伪字符、同形字及不可见 Unicode 符号，将混乱的伪文本一键还原为标准、可读的常规文本。

适用场景

•当从网页或文档复制的文本包含乱码或伪装字符时。
•需要清理包含大量不可见 Unicode 符号的敏感数据时。
•在进行文本分析前，需要统一空白字符并标准化文本格式时。

工作原理

•在输入框中粘贴需要处理的伪文本内容。
•根据需求选择清理模式，如仅处理同形字或执行深度清理。
•勾选移除不可见字符或标准化空白选项以进一步优化输出。
•点击处理按钮，即可获取还原后的标准文本。

使用场景

清理从社交媒体抓取并包含伪字符的评论数据。

修复因编码问题导致显示异常的文档内容。

标准化包含特殊空白符的程序代码或配置文件。

用户案例

1. 清理社交媒体乱码评论

数据分析师

背景原因: 从社交平台导出的用户评论中混入了大量同形字和不可见字符，导致关键词提取失败。
解决问题: 文本无法被自然语言处理模型正确识别。
如何使用: 将评论粘贴到输入框，选择“Aggressive Cleanup”模式，并勾选“移除不可见Unicode字符”。
示例配置: cleanupMode: aggressive, removeInvisible: true, normalizeSpaces: true
效果: 乱码字符被成功替换为标准字符，文本恢复正常，顺利通过数据清洗流程。

2. 标准化文档空白格式

文档编辑

背景原因: 一份从 PDF 转换而来的文档中存在大量不规范的 Unicode 空白符，导致排版错乱。
解决问题: 文档格式不统一，难以进行后续的排版编辑。
如何使用: 输入文本后，选择“Space Normalization Only”模式，并勾选“标准化空白字符”。
示例配置: cleanupMode: spaces, normalizeSpaces: true
效果: 所有异常空白符被统一为标准空格，文档排版恢复整洁。

用 Samples 测试

image, video, text

含表情符号的文本示例

用于测试表情符号提取的各种语言混合文本和Unicode表情符号

title token text

中英混合文本示例

用于测试自动添加空格工具的中英文混合内容示例文本文件

title token text

大小写转换样本

不同命名约定之间的大小写转换测试样本

title token text

含中文文本示例

包含中文字符的混合语言文本，用于测试中文提取

title token text

相关专题

Unicode、Emoji 与隐形字符调试工具

在一个 Unicode 调试专题里检查隐形字符、规范全半角、解码转义序列、审查 IDN punycode，并清理含大量 emoji 的文本。

图片格式转换与动画导出工具

在一个专题里比较 JPG、PNG、GIF、AVIF、WebP、TIFF、ICO、base64 以及动画导出相关的图片格式转换工具。

文本大小写、编码与规范化转换工具

在一个专题中比较文本大小写转换、全半角转换、编码转换、Quoted-Printable 处理和行内文本规范化工具。

视频转音频与动画格式转换工具

在一个专题里比较把视频转成音频、提取视频流，以及在短视频与动态图格式之间转换的工具。

常见问题

什么是同形字？

同形字是指在视觉上与标准字符极其相似，但实际编码不同的 Unicode 字符，常被用于伪造文本。

该工具会删除我的原始文本吗？

不会，工具仅对输入内容进行处理，您可以随时复制处理后的结果。

“深度清理”模式有什么作用？

深度清理会同时应用同形字转换、空白标准化及不可见字符移除，以确保文本达到最高纯净度。

如果文本中有无法识别的字符怎么办？

您可以勾选“保留未知字符”选项，工具将跳过无法识别的字符，确保不破坏原始文本结构。

该工具支持批量处理吗？

支持，您可以直接粘贴大段文本进行一次性处理。

API 文档

请求端点

POST /zh/api/tools/text-unfaker

请求参数

参数名	类型	必填	描述
textInput	textarea	是	-
cleanupMode	select	是	-
removeInvisible	checkbox	否	-
normalizeSpaces	checkbox	否	-
preserveOriginal	checkbox	否	-

响应格式

{
  "result": "Processed text content",
  "error": "Error message (optional)",
  "message": "Notification message (optional)",
  "metadata": {
    "key": "value"
  }
}

文本: 文本

AI MCP 文档

将此工具添加到您的 MCP 服务器配置中：

{
  "mcpServers": {
    "elysiatools-text-unfaker": {
      "name": "text-unfaker",
      "description": "快速将包含伪字符的伪文本转换为常规文本",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=text-unfaker",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

你可以串联多个工具，比如：`https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`，最多20个。

如果遇见问题，请联系我们：[email protected]