Points clés
- Catégorie
- Data Processing
- Types d’entrée
- textarea, select, number, checkbox
- Type de sortie
- text
- Couverture des échantillons
- 4
- API disponible
- Yes
Vue d’ensemble
Le Processeur de Valeurs Aberrantes est un outil d'analyse statistique conçu pour identifier et traiter les données anormales au sein de vos jeux de données numériques. Grâce à des méthodes robustes comme l'IQR, le Z-Score ou l'Isolation Forest, il permet de nettoyer efficacement vos fichiers CSV pour fiabiliser vos analyses et modèles de machine learning.
Quand l’utiliser
- •Avant de réaliser une analyse statistique pour éviter que des valeurs extrêmes ne faussent vos moyennes.
- •Lors de la préparation de jeux de données pour l'entraînement de modèles de machine learning.
- •Pour identifier des erreurs de saisie ou des anomalies dans des relevés de capteurs ou des transactions financières.
Comment ça marche
- •Importez vos données au format CSV dans l'outil.
- •Sélectionnez la méthode de détection adaptée à votre distribution (ex: IQR pour les données asymétriques).
- •Choisissez une stratégie de traitement : supprimer les lignes, remplacer par la médiane/moyenne, ou limiter les valeurs extrêmes.
- •Exécutez le traitement pour obtenir un fichier nettoyé avec, si souhaité, un marquage des anomalies détectées.
Cas d’usage
Exemples
1. Nettoyage de données de capteurs
Ingénieur données- Contexte
- Un capteur de température envoie parfois des valeurs aberrantes dues à des interférences électriques.
- Problème
- Ces pics faussent le calcul de la température moyenne journalière.
- Comment l’utiliser
- Charger le CSV, sélectionner la méthode 'Modified Z-Score' et choisir la stratégie 'Remplacer' par la 'Médiane'.
- Configuration d’exemple
-
detectionMethod: modified_zscore, handlingStrategy: replace, replacementMethod: median - Résultat
- Les pics de température sont lissés, permettant un calcul de moyenne précis sans supprimer les lignes de données.
2. Préparation de dataset marketing
Analyste marketing- Contexte
- Un fichier de dépenses clients contient des valeurs extrêmes dues à des erreurs de saisie manuelle.
- Problème
- Les valeurs aberrantes rendent les segments de clientèle inexploitables.
- Comment l’utiliser
- Utiliser la méthode IQR avec un seuil de 1.5 et supprimer les lignes contenant des anomalies.
- Configuration d’exemple
-
detectionMethod: iqr, threshold: 1.5, handlingStrategy: remove - Résultat
- Un dataset propre, sans valeurs extrêmes, prêt pour une segmentation client fiable.
Tester avec des échantillons
csv, video, qrHubs associés
FAQ
Quelle méthode de détection choisir ?
La méthode IQR est idéale pour les données non normales, tandis que le Z-Score convient mieux aux distributions suivant une loi normale.
Puis-je conserver mes données originales ?
Oui, vous pouvez activer l'option 'Préserver les colonnes originales' pour comparer vos données sources avec les valeurs traitées.
Que fait l'option 'Cap' ?
L'option 'Cap' remplace les valeurs aberrantes par la borne supérieure ou inférieure définie par la méthode de détection choisie, au lieu de les supprimer.
L'outil gère-t-il plusieurs colonnes à la fois ?
Oui, vous pouvez spécifier plusieurs colonnes cibles ou laisser l'outil détecter automatiquement toutes les colonnes numériques.
Comment fonctionne le marquage des valeurs ?
Si vous activez 'Marquer les valeurs aberrantes', l'outil ajoute une colonne supplémentaire indiquant par un booléen si la ligne contient une anomalie.