Wichtige Fakten
- Kategorie
- Daten & Tabellen
- Eingabetypen
- textarea, file, text, select, number
- Ausgabetyp
- html
- Sample-Abdeckung
- 4
- API verfügbar
- Yes
Überblick
Der Datensatz-Imbalance-Detektor und Resampler analysiert CSV- oder JSON-Daten, um Klassenungleichgewichte in Machine-Learning-Datensätzen zu erkennen. Das Tool berechnet die Verteilung der Zielklassen, vergleicht Oversampling- sowie Undersampling-Strategien und generiert eine balancierte Datenvorschau im gewünschten Format.
Wann verwenden
- •Wenn ein Klassifikationsmodell aufgrund einer dominanten Mehrheitsklasse verzerrte Vorhersagen liefert.
- •Um vor dem Training eines Machine-Learning-Modells schnell die Auswirkungen von Oversampling oder Undersampling zu testen.
- •Wenn Sie einen unausgewogenen Datensatz für die weitere Verarbeitung in ein balanciertes CSV- oder JSON-Format exportieren möchten.
So funktioniert es
- •Fügen Sie Ihre CSV-Daten direkt ein oder laden Sie eine CSV- bzw. JSON-Datei hoch.
- •Geben Sie den Namen der Label-Spalte an, die die Zielklassen für die Klassifikation enthält.
- •Wählen Sie eine Resampling-Strategie (Oversample oder Undersample) und das gewünschte Exportformat.
- •Das Tool analysiert die Verteilung, wendet die gewählte Strategie an und zeigt eine Vorschau der balancierten Daten.
Anwendungsfälle
Beispiele
1. Ausgleich eines Betrugsdatensatzes
Data Scientist- Hintergrund
- Ein Datensatz zur Betrugserkennung enthält 95 % normale Transaktionen und nur 5 % Betrugsfälle.
- Problem
- Das Modell lernt, einfach immer 'normal' vorherzusagen, da dies in 95 % der Fälle richtig ist.
- Verwendung
- Laden Sie die CSV-Datei hoch, setzen Sie die Label-Spalte auf 'fraud_label' und wählen Sie 'oversample' als Strategie.
- Beispielkonfiguration
-
{ "labelColumn": "fraud_label", "strategy": "oversample", "exportFormat": "csv", "previewRows": 10 } - Ergebnis
- Die Betrugsfälle werden dupliziert, bis ein 50:50-Verhältnis erreicht ist, was das Training eines robusteren Modells ermöglicht.
2. Reduzierung dominanter Klassen in Churn-Daten
Machine Learning Engineer- Hintergrund
- Ein Datensatz zur Kundenabwanderung hat 10.000 aktive Kunden und 500 Abwanderer.
- Problem
- Ein schnelles Prototyping erfordert einen kleineren, balancierten Datensatz, um Trainingszeiten zu verkürzen.
- Verwendung
- Fügen Sie die Daten ein, geben Sie 'churn' als Label-Spalte an und wählen Sie 'undersample'.
- Beispielkonfiguration
-
{ "labelColumn": "churn", "strategy": "undersample", "exportFormat": "json", "previewRows": 20 } - Ergebnis
- Die aktiven Kunden werden auf 500 zufällige Einträge reduziert, sodass ein kompakter, balancierter JSON-Datensatz mit 1.000 Zeilen entsteht.
Mit Samples testen
json, csv, textVerwandte Hubs
FAQ
Welche Dateiformate werden unterstützt?
Das Tool verarbeitet CSV- und JSON-Dateien. Sie können Daten auch direkt als CSV-Text in das Eingabefeld einfügen.
Was ist der Unterschied zwischen Oversampling und Undersampling?
Oversampling dupliziert Zeilen der Minderheitsklasse, bis sie der Mehrheitsklasse entsprechen. Undersampling reduziert die Mehrheitsklasse auf die Größe der Minderheitsklasse.
Werden meine Daten auf dem Server gespeichert?
Nein, die gesamte Verarbeitung und das Resampling erfolgen lokal in Ihrem Browser. Es werden keine Daten hochgeladen.
Kann ich die balancierten Daten exportieren?
Ja, Sie können das Ergebnis als JSON oder CSV in der Vorschau anzeigen und für Ihre ML-Pipeline kopieren.
Ersetzt dieses Tool SMOTE?
Nein, es nutzt einfaches Duplizieren oder Kürzen. Es hilft jedoch bei der Entscheidung, ob komplexere Methoden wie SMOTE später sinnvoll sind.