Points clés
- Catégorie
- Text Processing
- Types d’entrée
- textarea, select, checkbox, number
- Type de sortie
- text
- Couverture des échantillons
- 4
- API disponible
- Yes
Vue d’ensemble
Le Détecteur de Similarité de Texte est un outil d'analyse précis qui calcule le pourcentage de ressemblance entre deux contenus textuels en s'appuyant sur des algorithmes mathématiques avancés comme la similarité Cosinus, Jaccard et la distance de Levenshtein.
Quand l’utiliser
- •Vérifier l'originalité d'un contenu pour éviter le plagiat.
- •Comparer deux versions d'un document pour identifier les modifications apportées.
- •Analyser la cohérence sémantique entre plusieurs descriptions de produits ou articles.
Comment ça marche
- •Saisissez vos deux textes dans les champs dédiés.
- •Sélectionnez l'algorithme de calcul souhaité (Cosinus, Jaccard, Levenshtein ou combiné).
- •Ajustez les options de filtrage comme la sensibilité à la casse ou la longueur minimale des mots.
- •Lancez l'analyse pour obtenir instantanément le score de similarité en pourcentage.
Cas d’usage
Exemples
1. Vérification d'originalité d'article
Rédacteur Web- Contexte
- Un rédacteur souhaite s'assurer que son nouvel article n'est pas trop proche d'un contenu existant sur son blog.
- Problème
- Mesurer le taux de duplication textuelle.
- Comment l’utiliser
- Copier l'article original dans 'Premier Texte' et le nouveau brouillon dans 'Deuxième Texte', puis choisir l'algorithme 'Cosinus'.
- Résultat
- Un score de similarité est généré, permettant de confirmer si le texte est suffisamment unique ou s'il nécessite une réécriture.
2. Comparaison de versions de contrat
Assistant Juridique- Contexte
- Deux versions d'un contrat ont été éditées et il faut identifier les changements textuels.
- Problème
- Repérer rapidement les modifications mineures ou majeures entre deux documents.
- Comment l’utiliser
- Utiliser l'algorithme 'Levenshtein' qui est idéal pour détecter les changements caractère par caractère.
- Résultat
- Le pourcentage de distance permet de quantifier l'ampleur des modifications apportées entre les deux versions du contrat.
Tester avec des échantillons
video, textHubs associés
FAQ
Quels algorithmes sont utilisés ?
L'outil propose la similarité Cosinus (vecteurs), Jaccard (ensembles), Levenshtein (édition) ou une méthode combinée.
L'outil est-il sensible à la casse ?
Par défaut, il ne l'est pas, mais vous pouvez activer l'option 'Sensible à la casse' pour différencier les majuscules des minuscules.
Comment ignorer les espaces inutiles ?
L'option 'Ignorer les espaces' est activée par défaut pour nettoyer les tabulations et sauts de ligne avant le calcul.
À quoi sert la longueur minimale de mot ?
Elle permet d'exclure les mots très courts (comme les articles ou prépositions) pour se concentrer sur le contenu sémantique significatif.
Mes données sont-elles stockées ?
Non, le traitement est effectué localement et aucune donnée textuelle n'est conservée sur nos serveurs.