Detecteur de desequilibre et reechantillonneur

Detecte le desequilibre de classes dans un dataset CSV ou JSON, compare les strategies et previsualise un jeu equilibre

Collez un dataset CSV ou televersez un CSV/JSON, puis indiquez la colonne cible. Loutil compte chaque classe, mesure le ratio de desequilibre, suggere si lover- ou lunder-sampling est plus adapte et genere un apercu equilibre.

Comment lutiliser :

  • Entree du dataset : collez du CSV pour une lecture rapide
  • Fichier de donnees : televersez CSV ou JSON
  • Colonne cible : choisissez la classe a profiler
  • Strategie de reechantillonnage : none, oversample ou undersample
  • Format dexport : previsualisez en JSON ou CSV
  • Lignes daperçu : limite le nombre de lignes affichees

Notes :

  • L'oversampling duplique les lignes minoritaires jusqu'au niveau majoritaire
  • L'undersampling reduit la majorite jusqu'au niveau minoritaire
  • Le rapport compare les deux strategies
  • Cela aide a decider si un outil plus avance comme SMOTE sera utile ensuite

Exemples de résultats

1 Exemples

Inspecter un dataset fraude 95:5

Mesure le desequilibre, compare les strategies et exporte un apercu equilibre.

Original distribution
Voir paramètres d'entrée
{ "datasetInput": "id,label,amount\n1,normal,20\n2,normal,21\n3,normal,19\n4,normal,22\n5,fraud,300", "labelColumn": "label", "strategy": "oversample", "exportFormat": "json", "previewRows": 10 }

Click to upload file or drag and drop file here

Maximum file size: 20MB Supported formats: text/csv, application/json, text/plain, .csv, .json

Points clés

Catégorie
Données et tableaux
Types d’entrée
textarea, file, text, select, number
Type de sortie
html
Couverture des échantillons
4
API disponible
Yes

Vue d’ensemble

Ce détecteur de déséquilibre et rééchantillonneur analyse vos jeux de données CSV ou JSON pour identifier les classes minoritaires et majoritaires. Il calcule le ratio de déséquilibre, compare les stratégies de suréchantillonnage (oversampling) et de sous-échantillonnage (undersampling), et génère un aperçu du jeu de données équilibré pour préparer vos modèles de machine learning.

Quand l’utiliser

  • Lors de la préparation d'un jeu de données pour l'entraînement d'un modèle de classification.
  • Pour évaluer rapidement la distribution des classes cibles avant d'appliquer des algorithmes complexes comme SMOTE.
  • Pour corriger un biais de prédiction causé par une surreprésentation d'une catégorie spécifique.

Comment ça marche

  • Collez vos données CSV ou téléversez un fichier CSV/JSON contenant votre jeu de données.
  • Indiquez le nom exact de la colonne cible (label) à analyser.
  • Choisissez une stratégie de rééchantillonnage (oversample ou undersample) et le format d'export souhaité.
  • Consultez le rapport de distribution et prévisualisez les lignes du jeu de données équilibré.

Cas d’usage

Détection de fraudes où les transactions normales sont massivement plus nombreuses que les transactions frauduleuses.
Diagnostic médical pour équilibrer les données de patients sains par rapport aux cas de maladies rares.
Analyse de churn (attrition) client pour obtenir un nombre égal de clients fidèles et de clients ayant résilié.

Exemples

1. Équilibrage d'un jeu de données de détection de fraude

Data Scientist
Contexte
Un modèle de détection de fraude bancaire prédit toujours "normal" car les transactions frauduleuses ne représentent que 5% des données.
Problème
Évaluer le déséquilibre et générer un échantillon équilibré pour améliorer l'entraînement du modèle.
Comment l’utiliser
Collez le CSV des transactions, définissez la colonne cible sur "label" et choisissez la stratégie "oversample".
Configuration d’exemple
{
  "labelColumn": "label",
  "strategy": "oversample",
  "exportFormat": "json",
  "previewRows": 10
}
Résultat
Le rapport confirme le ratio de 95:5 et l'aperçu affiche un jeu de données où les lignes de fraude sont dupliquées pour égaler les transactions normales.

2. Sous-échantillonnage pour l'analyse de churn

Analyste de données
Contexte
Une base de données client contient 100 000 utilisateurs actifs et seulement 2 000 utilisateurs ayant résilié (churn).
Problème
Réduire la taille de la classe majoritaire pour accélérer les tests de modèles sans biais.
Comment l’utiliser
Téléversez le fichier JSON des clients, indiquez "churn_status" comme colonne cible et sélectionnez "undersample".
Configuration d’exemple
{
  "labelColumn": "churn_status",
  "strategy": "undersample",
  "exportFormat": "csv",
  "previewRows": 20
}
Résultat
L'outil réduit aléatoirement les utilisateurs actifs à 2 000 lignes, créant un jeu de données parfaitement équilibré 50/50 au format CSV.

Tester avec des échantillons

json, csv, text

Hubs associés

FAQ

Quels formats de fichiers sont pris en charge ?

L'outil accepte les données collées au format texte CSV, ainsi que les fichiers téléversés aux formats CSV et JSON.

Quelle est la différence entre l'oversampling et l'undersampling ?

L'oversampling duplique les lignes de la classe minoritaire pour atteindre le niveau de la classe majoritaire, tandis que l'undersampling réduit la classe majoritaire au niveau de la minoritaire.

Comment choisir la colonne cible ?

Saisissez simplement le nom de l'en-tête de la colonne qui contient les étiquettes de classification (par exemple "fraude", "statut" ou "label").

Puis-je exporter le jeu de données complet ?

L'outil génère un aperçu limité au nombre de lignes défini dans les paramètres (jusqu'à 50 lignes) au format JSON ou CSV.

L'outil crée-t-il de nouvelles données synthétiques ?

Non, la stratégie d'oversampling se contente de dupliquer les lignes existantes de la classe minoritaire.

Documentation de l'API

Point de terminaison de la requête

POST /fr/api/tools/dataset-imbalance-detector-resampler

Paramètres de la requête

Nom du paramètre Type Requis Description
datasetInput textarea Non -
datasetFile file (Téléchargement requis) Non -
labelColumn text Oui -
strategy select Non -
exportFormat select Non -
previewRows number Non -

Les paramètres de type fichier doivent être téléchargés d'abord via POST /upload/dataset-imbalance-detector-resampler pour obtenir filePath, puis filePath doit être passé au champ de fichier correspondant.

Format de réponse

{
  "result": "
Processed HTML content
", "error": "Error message (optional)", "message": "Notification message (optional)", "metadata": { "key": "value" } }
HTML: HTML

Documentation de MCP

Ajoutez cet outil à votre configuration de serveur MCP:

{
  "mcpServers": {
    "elysiatools-dataset-imbalance-detector-resampler": {
      "name": "dataset-imbalance-detector-resampler",
      "description": "Detecte le desequilibre de classes dans un dataset CSV ou JSON, compare les strategies et previsualise un jeu equilibre",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=dataset-imbalance-detector-resampler",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Vous pouvez chaîner plusieurs outils, par ex.: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, max 20 outils.

Prend en charge les liens de fichiers URL ou la codification Base64 pour les paramètres de fichier.

Si vous rencontrez des problèmes, veuillez nous contacter à [email protected]