Points clés
- Catégorie
- Données et tableaux
- Types d’entrée
- textarea, file, text, select, number
- Type de sortie
- html
- Couverture des échantillons
- 4
- API disponible
- Yes
Vue d’ensemble
Ce détecteur de déséquilibre et rééchantillonneur analyse vos jeux de données CSV ou JSON pour identifier les classes minoritaires et majoritaires. Il calcule le ratio de déséquilibre, compare les stratégies de suréchantillonnage (oversampling) et de sous-échantillonnage (undersampling), et génère un aperçu du jeu de données équilibré pour préparer vos modèles de machine learning.
Quand l’utiliser
- •Lors de la préparation d'un jeu de données pour l'entraînement d'un modèle de classification.
- •Pour évaluer rapidement la distribution des classes cibles avant d'appliquer des algorithmes complexes comme SMOTE.
- •Pour corriger un biais de prédiction causé par une surreprésentation d'une catégorie spécifique.
Comment ça marche
- •Collez vos données CSV ou téléversez un fichier CSV/JSON contenant votre jeu de données.
- •Indiquez le nom exact de la colonne cible (label) à analyser.
- •Choisissez une stratégie de rééchantillonnage (oversample ou undersample) et le format d'export souhaité.
- •Consultez le rapport de distribution et prévisualisez les lignes du jeu de données équilibré.
Cas d’usage
Exemples
1. Équilibrage d'un jeu de données de détection de fraude
Data Scientist- Contexte
- Un modèle de détection de fraude bancaire prédit toujours "normal" car les transactions frauduleuses ne représentent que 5% des données.
- Problème
- Évaluer le déséquilibre et générer un échantillon équilibré pour améliorer l'entraînement du modèle.
- Comment l’utiliser
- Collez le CSV des transactions, définissez la colonne cible sur "label" et choisissez la stratégie "oversample".
- Configuration d’exemple
-
{ "labelColumn": "label", "strategy": "oversample", "exportFormat": "json", "previewRows": 10 } - Résultat
- Le rapport confirme le ratio de 95:5 et l'aperçu affiche un jeu de données où les lignes de fraude sont dupliquées pour égaler les transactions normales.
2. Sous-échantillonnage pour l'analyse de churn
Analyste de données- Contexte
- Une base de données client contient 100 000 utilisateurs actifs et seulement 2 000 utilisateurs ayant résilié (churn).
- Problème
- Réduire la taille de la classe majoritaire pour accélérer les tests de modèles sans biais.
- Comment l’utiliser
- Téléversez le fichier JSON des clients, indiquez "churn_status" comme colonne cible et sélectionnez "undersample".
- Configuration d’exemple
-
{ "labelColumn": "churn_status", "strategy": "undersample", "exportFormat": "csv", "previewRows": 20 } - Résultat
- L'outil réduit aléatoirement les utilisateurs actifs à 2 000 lignes, créant un jeu de données parfaitement équilibré 50/50 au format CSV.
Tester avec des échantillons
json, csv, textHubs associés
FAQ
Quels formats de fichiers sont pris en charge ?
L'outil accepte les données collées au format texte CSV, ainsi que les fichiers téléversés aux formats CSV et JSON.
Quelle est la différence entre l'oversampling et l'undersampling ?
L'oversampling duplique les lignes de la classe minoritaire pour atteindre le niveau de la classe majoritaire, tandis que l'undersampling réduit la classe majoritaire au niveau de la minoritaire.
Comment choisir la colonne cible ?
Saisissez simplement le nom de l'en-tête de la colonne qui contient les étiquettes de classification (par exemple "fraude", "statut" ou "label").
Puis-je exporter le jeu de données complet ?
L'outil génère un aperçu limité au nombre de lignes défini dans les paramètres (jusqu'à 50 lignes) au format JSON ou CSV.
L'outil crée-t-il de nouvelles données synthétiques ?
Non, la stratégie d'oversampling se contente de dupliquer les lignes existantes de la classe minoritaire.