关键信息
- 分类
- Text Processing
- 输入类型
- textarea, select, checkbox, number
- 输出类型
- text
- 样本覆盖
- 4
- 支持 API
- Yes
概览
文本相似度检测器是一款在线工具,通过余弦相似度、杰卡德相似度和编辑距离等多种算法,精确计算两段文本之间的相似度百分比,帮助您快速进行文本比对与分析。
适用场景
- •需要检查两篇文章、代码片段或产品描述是否存在抄袭或高度重复时。
- •在内容管理系统中,需要比对新提交内容与已有内容的相似度以避免重复发布时。
- •进行数据清洗或预处理前,需要识别并合并相似文本记录时。
工作原理
- •在输入框中分别粘贴或输入需要比较的两段文本。
- •从下拉菜单中选择一种相似度算法(余弦、杰卡德、编辑距离或组合算法)。
- •根据需要配置选项,如是否区分大小写、忽略空白字符或设置最小词长度。
- •点击计算按钮,工具将立即输出基于所选算法的相似度百分比结果。
使用场景
用户案例
1. 学术论文自查
研究生- 背景原因
- 小李完成了一篇课程论文的初稿,其中引用了多篇文献的观点。他担心自己的表述与原文过于接近,需要自查。
- 解决问题
- 需要快速检测自己撰写的段落与原始文献段落的相似度,以评估是否需要进一步改写。
- 如何使用
- 将自己撰写的段落粘贴到“第一段文本”框,将对应的文献原文粘贴到“第二段文本”框。选择“组合”算法以获得综合评估,并勾选“忽略空白字符”。
- 效果
- 工具计算出相似度为35%。小李认为这个比例可以接受,表明他在引用时进行了足够的转述和整合。
2. 产品描述去重
- 背景原因
- 一家网店的运营人员需要上架一批新商品,但部分商品与已有商品功能类似,他需要确保新写的产品描述与旧描述有足够的差异。
- 解决问题
- 避免因产品描述高度重复而被电商平台判定为重复铺货,影响店铺权重。
- 如何使用
- 将新写的产品描述和最相似的旧产品描述分别输入。选择“杰卡德相似度”算法,因为它更关注词汇集合的差异。设置“最小词长度”为3,以过滤掉“的”、“和”等常见词。
- 效果
- 检测结果显示相似度为28%。运营人员认为差异足够明显,可以安全上架新描述。
3. 客服反馈归类
- 背景原因
- 客服主管收集了大量客户通过邮件和聊天工具发来的反馈,希望在进行正式分析前,先初步识别出内容高度相似的反馈,以便合并处理。
- 解决问题
- 手动阅读所有反馈来识别重复内容效率低下,容易遗漏。
- 如何使用
- 将两条待比较的客户反馈文本分别输入。使用默认的“组合”算法,并取消勾选“区分大小写”,因为客户输入可能大小写不规范。
- 效果
- 工具显示两条反馈的相似度高达82%。主管确认它们描述的是同一个问题,于是将它们标记为同一工单进行处理。
用 Samples 测试
video, text相关专题
常见问题
余弦相似度、杰卡德相似度和编辑距离有什么区别?
余弦相似度基于词频向量计算夹角余弦值,适合比较文档主题;杰卡德相似度基于词汇集合的交并比,关注词汇重叠;编辑距离计算将一个字符串转为另一个所需的最少单字符编辑次数,反映字符级差异。
相似度百分比结果如何解读?
结果范围是0%到100%。100%表示文本完全相同(在所选算法和配置下),0%表示完全不同。百分比越高,文本越相似。
“忽略空白字符”和“最小词长度”选项有什么作用?
“忽略空白字符”会在比较前移除多余空格、制表符和换行符,使比较更关注内容本身。“最小词长度”会过滤掉短于此长度的单词,避免常见虚词过度影响结果。
这个工具适合比较多长的文本?
工具适用于比较段落、文章摘要、产品描述等中等长度的文本。对于极长的整本书籍或文档,计算可能较慢且结果可能不够精确。
可以保存或导出比较结果吗?
当前工具直接在页面上显示相似度百分比结果。您可以手动复制该数值。工具本身不提供自动保存或导出功能。