关键信息
- 分类
- 文本与写作
- 输入类型
- textarea, select, checkbox
- 输出类型
- text
- 样本覆盖
- 4
- 支持 API
- Yes
概览
文本还原器是一款高效的文本处理工具,旨在帮助用户快速识别并移除文本中的伪字符、同形字及不可见 Unicode 符号,将混乱的伪文本一键还原为标准、可读的常规文本。
适用场景
- •当从网页或文档复制的文本包含乱码或伪装字符时。
- •需要清理包含大量不可见 Unicode 符号的敏感数据时。
- •在进行文本分析前,需要统一空白字符并标准化文本格式时。
工作原理
- •在输入框中粘贴需要处理的伪文本内容。
- •根据需求选择清理模式,如仅处理同形字或执行深度清理。
- •勾选移除不可见字符或标准化空白选项以进一步优化输出。
- •点击处理按钮,即可获取还原后的标准文本。
使用场景
清理从社交媒体抓取并包含伪字符的评论数据。
修复因编码问题导致显示异常的文档内容。
标准化包含特殊空白符的程序代码或配置文件。
用户案例
1. 清理社交媒体乱码评论
数据分析师- 背景原因
- 从社交平台导出的用户评论中混入了大量同形字和不可见字符,导致关键词提取失败。
- 解决问题
- 文本无法被自然语言处理模型正确识别。
- 如何使用
- 将评论粘贴到输入框,选择“Aggressive Cleanup”模式,并勾选“移除不可见Unicode字符”。
- 示例配置
-
cleanupMode: aggressive, removeInvisible: true, normalizeSpaces: true - 效果
- 乱码字符被成功替换为标准字符,文本恢复正常,顺利通过数据清洗流程。
2. 标准化文档空白格式
文档编辑- 背景原因
- 一份从 PDF 转换而来的文档中存在大量不规范的 Unicode 空白符,导致排版错乱。
- 解决问题
- 文档格式不统一,难以进行后续的排版编辑。
- 如何使用
- 输入文本后,选择“Space Normalization Only”模式,并勾选“标准化空白字符”。
- 示例配置
-
cleanupMode: spaces, normalizeSpaces: true - 效果
- 所有异常空白符被统一为标准空格,文档排版恢复整洁。
用 Samples 测试
image, video, text相关专题
Unicode、Emoji 与隐形字符调试工具
在一个 Unicode 调试专题里检查隐形字符、规范全半角、解码转义序列、审查 IDN punycode,并清理含大量 emoji 的文本。
图片格式转换与动画导出工具
在一个专题里比较 JPG、PNG、GIF、AVIF、WebP、TIFF、ICO、base64 以及动画导出相关的图片格式转换工具。
文本大小写、编码与规范化转换工具
在一个专题中比较文本大小写转换、全半角转换、编码转换、Quoted-Printable 处理和行内文本规范化工具。
视频转音频与动画格式转换工具
在一个专题里比较把视频转成音频、提取视频流,以及在短视频与动态图格式之间转换的工具。
常见问题
什么是同形字?
同形字是指在视觉上与标准字符极其相似,但实际编码不同的 Unicode 字符,常被用于伪造文本。
该工具会删除我的原始文本吗?
不会,工具仅对输入内容进行处理,您可以随时复制处理后的结果。
“深度清理”模式有什么作用?
深度清理会同时应用同形字转换、空白标准化及不可见字符移除,以确保文本达到最高纯净度。
如果文本中有无法识别的字符怎么办?
您可以勾选“保留未知字符”选项,工具将跳过无法识别的字符,确保不破坏原始文本结构。
该工具支持批量处理吗?
支持,您可以直接粘贴大段文本进行一次性处理。