Processeur de Valeurs Aberrantes

Points clés

Catégorie: Données et tableaux
Types d’entrée: textarea, select, number, checkbox
Type de sortie: text
Couverture des échantillons: 4
API disponible: Yes

Vue d’ensemble

Le Processeur de Valeurs Aberrantes est un outil d'analyse statistique conçu pour identifier et traiter les données anormales au sein de vos jeux de données numériques. Grâce à des méthodes robustes comme l'IQR, le Z-Score ou l'Isolation Forest, il permet de nettoyer efficacement vos fichiers CSV pour fiabiliser vos analyses et modèles de machine learning.

Quand l’utiliser

•Avant de réaliser une analyse statistique pour éviter que des valeurs extrêmes ne faussent vos moyennes.
•Lors de la préparation de jeux de données pour l'entraînement de modèles de machine learning.
•Pour identifier des erreurs de saisie ou des anomalies dans des relevés de capteurs ou des transactions financières.

Comment ça marche

•Importez vos données au format CSV dans l'outil.
•Sélectionnez la méthode de détection adaptée à votre distribution (ex: IQR pour les données asymétriques).
•Choisissez une stratégie de traitement : supprimer les lignes, remplacer par la médiane/moyenne, ou limiter les valeurs extrêmes.
•Exécutez le traitement pour obtenir un fichier nettoyé avec, si souhaité, un marquage des anomalies détectées.

Cas d’usage

Nettoyage de bases de données clients pour supprimer les âges ou revenus incohérents.

Validation de données de capteurs industriels pour isoler les pics de tension anormaux.

Préparation de datasets financiers en remplaçant les montants aberrants par la médiane du secteur.

Exemples

1. Nettoyage de données de capteurs

Ingénieur données

Contexte: Un capteur de température envoie parfois des valeurs aberrantes dues à des interférences électriques.
Problème: Ces pics faussent le calcul de la température moyenne journalière.
Comment l’utiliser: Charger le CSV, sélectionner la méthode 'Modified Z-Score' et choisir la stratégie 'Remplacer' par la 'Médiane'.
Configuration d’exemple: detectionMethod: modified_zscore, handlingStrategy: replace, replacementMethod: median
Résultat: Les pics de température sont lissés, permettant un calcul de moyenne précis sans supprimer les lignes de données.

2. Préparation de dataset marketing

Analyste marketing

Contexte: Un fichier de dépenses clients contient des valeurs extrêmes dues à des erreurs de saisie manuelle.
Problème: Les valeurs aberrantes rendent les segments de clientèle inexploitables.
Comment l’utiliser: Utiliser la méthode IQR avec un seuil de 1.5 et supprimer les lignes contenant des anomalies.
Configuration d’exemple: detectionMethod: iqr, threshold: 1.5, handlingStrategy: remove
Résultat: Un dataset propre, sans valeurs extrêmes, prêt pour une segmentation client fiable.

Tester avec des échantillons

csv, video, qr

Exemples de Remplacement Regex

Collection de modèles de remplacement regex courants et utiles pour la transformation de texte et le nettoyage de données

preferred input family csv

csv

Exemples de Lignes en Double

Fichiers d'échantillon avec divers types de lignes en double pour tester les outils de suppression des doublons

preferred input family csv

csv

Exemples CSV

Fichiers CSV d'exemple avec divers types de données, tailles et niveaux de complexité

preferred input family csv

csv

Traitement de Chaînes Windows - Exemples C#

Exemples complets de traitement de chaînes C# pour plateforme Windows incluant manipulation, division, jonction, expressions régulières et analyse de texte

preferred input family csv

csv

Hubs associés

Outils de qualite des donnees, deduplication et detection d anomalies

Profilez des jeux de donnees CSV/JSON, comparez des versions de tableurs et reperez doublons, valeurs aberrantes, manques, ruptures relationnelles et anomalies temporelles dans un meme hub.

Outils d export CSV et de conversion de tableaux

Comparez les conversions entre CSV et Excel, JSON, HTML, Markdown, XML et texte dans un meme hub pour les flux d echange tabulaire.

Outils de conversion video vers audio et d animation

Comparez les outils qui transforment la video en audio, extraient des flux et convertissent entre video courte et formats d image animes dans un meme hub.

Outils de previsualisation, extraction et sous-titres video

Regroupez dans un meme hub les outils de previsualisation video, extraction de flux, extraction audio, traduction de sous-titres et rotation rapide pour les workflows legers de preparation video.

FAQ

Quelle méthode de détection choisir ?

La méthode IQR est idéale pour les données non normales, tandis que le Z-Score convient mieux aux distributions suivant une loi normale.

Puis-je conserver mes données originales ?

Oui, vous pouvez activer l'option 'Préserver les colonnes originales' pour comparer vos données sources avec les valeurs traitées.

Que fait l'option 'Cap' ?

L'option 'Cap' remplace les valeurs aberrantes par la borne supérieure ou inférieure définie par la méthode de détection choisie, au lieu de les supprimer.

L'outil gère-t-il plusieurs colonnes à la fois ?

Oui, vous pouvez spécifier plusieurs colonnes cibles ou laisser l'outil détecter automatiquement toutes les colonnes numériques.

Comment fonctionne le marquage des valeurs ?

Si vous activez 'Marquer les valeurs aberrantes', l'outil ajoute une colonne supplémentaire indiquant par un booléen si la ligne contient une anomalie.

Nom du paramètre	Type	Requis	Description
inputData	textarea	Oui	-
targetColumns	textarea	Non	-
detectionMethod	select	Non	-
threshold	number	Non	Sensitivity threshold for outlier detection. Lower values detect more outliers.
handlingStrategy	select	Non	-
replacementMethod	select	Non	-
preserveOriginal	checkbox	Non	-
markOutliers	checkbox	Non	Ajouter des colonnes pour marquer les valeurs détectées comme aberrantes
includeStatistics	checkbox	Non	-
autoThreshold	checkbox	Non	Automatically find optimal threshold based on data distribution
sensitivity	select	Non	-

Points clés

Vue d’ensemble

Quand l’utiliser

Comment ça marche

Cas d’usage

Exemples

1. Nettoyage de données de capteurs

2. Préparation de dataset marketing

Tester avec des échantillons

Hubs associés

FAQ

Documentation de l'API

Point de terminaison de la requête

Paramètres de la requête

Format de réponse

Documentation de MCP

Processeur de Valeurs Aberrantes

Points clés

Vue d’ensemble

Quand l’utiliser

Comment ça marche

Cas d’usage

Exemples

1. Nettoyage de données de capteurs

2. Préparation de dataset marketing

Tester avec des échantillons

Hubs associés

Outils associés

FAQ

Documentation de l'API

Point de terminaison de la requête

Paramètres de la requête

Format de réponse

Documentation de MCP