分类

文本相似度检测器

使用余弦相似度、杰卡德相似度和编辑距离等多种算法计算两段文本的相似度百分比

Treat uppercase and lowercase as different characters

Remove extra spaces, tabs, and newlines before comparison

Ignore words shorter than this length

关键信息

分类
Text Processing
输入类型
textarea, select, checkbox, number
输出类型
text
样本覆盖
4
支持 API
Yes

概览

文本相似度检测器是一款在线工具,通过余弦相似度、杰卡德相似度和编辑距离等多种算法,精确计算两段文本之间的相似度百分比,帮助您快速进行文本比对与分析。

适用场景

  • 需要检查两篇文章、代码片段或产品描述是否存在抄袭或高度重复时。
  • 在内容管理系统中,需要比对新提交内容与已有内容的相似度以避免重复发布时。
  • 进行数据清洗或预处理前,需要识别并合并相似文本记录时。

工作原理

  • 在输入框中分别粘贴或输入需要比较的两段文本。
  • 从下拉菜单中选择一种相似度算法(余弦、杰卡德、编辑距离或组合算法)。
  • 根据需要配置选项,如是否区分大小写、忽略空白字符或设置最小词长度。
  • 点击计算按钮,工具将立即输出基于所选算法的相似度百分比结果。

使用场景

学术写作中,自查论文草稿与参考文献的相似度,避免无意抄袭。
电商平台运营,比对新上架商品描述与现有商品描述,确保内容独特性。
数据分析师在合并来自不同来源的客户反馈前,先检测文本字段的重复或相似情况。

用户案例

1. 学术论文自查

研究生
背景原因
小李完成了一篇课程论文的初稿,其中引用了多篇文献的观点。他担心自己的表述与原文过于接近,需要自查。
解决问题
需要快速检测自己撰写的段落与原始文献段落的相似度,以评估是否需要进一步改写。
如何使用
将自己撰写的段落粘贴到“第一段文本”框,将对应的文献原文粘贴到“第二段文本”框。选择“组合”算法以获得综合评估,并勾选“忽略空白字符”。
效果
工具计算出相似度为35%。小李认为这个比例可以接受,表明他在引用时进行了足够的转述和整合。

2. 产品描述去重

背景原因
一家网店的运营人员需要上架一批新商品,但部分商品与已有商品功能类似,他需要确保新写的产品描述与旧描述有足够的差异。
解决问题
避免因产品描述高度重复而被电商平台判定为重复铺货,影响店铺权重。
如何使用
将新写的产品描述和最相似的旧产品描述分别输入。选择“杰卡德相似度”算法,因为它更关注词汇集合的差异。设置“最小词长度”为3,以过滤掉“的”、“和”等常见词。
效果
检测结果显示相似度为28%。运营人员认为差异足够明显,可以安全上架新描述。

3. 客服反馈归类

背景原因
客服主管收集了大量客户通过邮件和聊天工具发来的反馈,希望在进行正式分析前,先初步识别出内容高度相似的反馈,以便合并处理。
解决问题
手动阅读所有反馈来识别重复内容效率低下,容易遗漏。
如何使用
将两条待比较的客户反馈文本分别输入。使用默认的“组合”算法,并取消勾选“区分大小写”,因为客户输入可能大小写不规范。
效果
工具显示两条反馈的相似度高达82%。主管确认它们描述的是同一个问题,于是将它们标记为同一工单进行处理。

用 Samples 测试

video, text

相关专题

常见问题

余弦相似度、杰卡德相似度和编辑距离有什么区别?

余弦相似度基于词频向量计算夹角余弦值,适合比较文档主题;杰卡德相似度基于词汇集合的交并比,关注词汇重叠;编辑距离计算将一个字符串转为另一个所需的最少单字符编辑次数,反映字符级差异。

相似度百分比结果如何解读?

结果范围是0%到100%。100%表示文本完全相同(在所选算法和配置下),0%表示完全不同。百分比越高,文本越相似。

“忽略空白字符”和“最小词长度”选项有什么作用?

“忽略空白字符”会在比较前移除多余空格、制表符和换行符,使比较更关注内容本身。“最小词长度”会过滤掉短于此长度的单词,避免常见虚词过度影响结果。

这个工具适合比较多长的文本?

工具适用于比较段落、文章摘要、产品描述等中等长度的文本。对于极长的整本书籍或文档,计算可能较慢且结果可能不够精确。

可以保存或导出比较结果吗?

当前工具直接在页面上显示相似度百分比结果。您可以手动复制该数值。工具本身不提供自动保存或导出功能。

API 文档

请求端点

POST /zh/api/tools/text-similarity-detector

请求参数

参数名 类型 必填 描述
text1 textarea -
text2 textarea -
algorithm select -
caseSensitive checkbox Treat uppercase and lowercase as different characters
ignoreWhitespace checkbox Remove extra spaces, tabs, and newlines before comparison
minWordLength number Ignore words shorter than this length

响应格式

{
  "result": "Processed text content",
  "error": "Error message (optional)",
  "message": "Notification message (optional)",
  "metadata": {
    "key": "value"
  }
}
文本: 文本

AI MCP 文档

将此工具添加到您的 MCP 服务器配置中:

{
  "mcpServers": {
    "elysiatools-text-similarity-detector": {
      "name": "text-similarity-detector",
      "description": "使用余弦相似度、杰卡德相似度和编辑距离等多种算法计算两段文本的相似度百分比",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=text-similarity-detector",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

你可以串联多个工具,比如:`https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`,最多20个。

如果遇见问题,请联系我们:[email protected]