Datensatz-Imbalance-Detektor und Resampler

Erkennt Klassenungleichgewicht in CSV- oder JSON-Datensaetzen, vergleicht Strategien und zeigt ein balanciertes Ergebnis

Fuegen Sie einen CSV-Datensatz ein oder laden Sie eine CSV-/JSON-Datei hoch und waehlen Sie dann die Label-Spalte. Das Tool zaehlt jede Klasse, misst das Ungleichgewicht, schlaegt Oversampling oder Undersampling vor und erzeugt eine balancierte Vorschau.

So wird es genutzt:

  • Datensatz-Eingabe: CSV fuer eine schnelle Analyse einfuegen
  • Datendatei: CSV oder JSON hochladen
  • Label-Spalte: Zielklasse angeben
  • Resampling-Strategie: none, oversample oder undersample
  • Exportformat: Vorschau als JSON oder CSV
  • Vorschauzeilen: begrenzt die angezeigten balancierten Zeilen

Hinweise:

  • Oversampling dupliziert Minderheitszeilen bis zur Mehrheitsgroesse
  • Undersampling kuerzt Mehrheitszeilen auf die Minderheitsgroesse
  • Der Bericht vergleicht beide Strategien
  • So laesst sich besser entscheiden, ob spaeter SMOTE sinnvoll ist

Beispielergebnisse

1 Beispiele

Einen Betrugsdatensatz mit 95:5-Verteilung pruefen

Misst die Klassenverzerrung, vergleicht Strategien und exportiert eine balancierte Vorschau.

Original distribution
Eingabeparameter anzeigen
{ "datasetInput": "id,label,amount\n1,normal,20\n2,normal,21\n3,normal,19\n4,normal,22\n5,fraud,300", "labelColumn": "label", "strategy": "oversample", "exportFormat": "json", "previewRows": 10 }

Click to upload file or drag and drop file here

Maximum file size: 20MB Supported formats: text/csv, application/json, text/plain, .csv, .json

Wichtige Fakten

Kategorie
Daten & Tabellen
Eingabetypen
textarea, file, text, select, number
Ausgabetyp
html
Sample-Abdeckung
4
API verfügbar
Yes

Überblick

Der Datensatz-Imbalance-Detektor und Resampler analysiert CSV- oder JSON-Daten, um Klassenungleichgewichte in Machine-Learning-Datensätzen zu erkennen. Das Tool berechnet die Verteilung der Zielklassen, vergleicht Oversampling- sowie Undersampling-Strategien und generiert eine balancierte Datenvorschau im gewünschten Format.

Wann verwenden

  • Wenn ein Klassifikationsmodell aufgrund einer dominanten Mehrheitsklasse verzerrte Vorhersagen liefert.
  • Um vor dem Training eines Machine-Learning-Modells schnell die Auswirkungen von Oversampling oder Undersampling zu testen.
  • Wenn Sie einen unausgewogenen Datensatz für die weitere Verarbeitung in ein balanciertes CSV- oder JSON-Format exportieren möchten.

So funktioniert es

  • Fügen Sie Ihre CSV-Daten direkt ein oder laden Sie eine CSV- bzw. JSON-Datei hoch.
  • Geben Sie den Namen der Label-Spalte an, die die Zielklassen für die Klassifikation enthält.
  • Wählen Sie eine Resampling-Strategie (Oversample oder Undersample) und das gewünschte Exportformat.
  • Das Tool analysiert die Verteilung, wendet die gewählte Strategie an und zeigt eine Vorschau der balancierten Daten.

Anwendungsfälle

Vorbereitung von Betrugserkennungs-Datensätzen, bei denen Betrugsfälle stark in der Unterzahl sind.
Ausgleich von Kundenabwanderungs-Daten (Churn), um ein Modell nicht auf die treue Mehrheit zu überanpassen.
Analyse von medizinischen Diagnose-Daten, bei denen positive Befunde seltener auftreten als negative.

Beispiele

1. Ausgleich eines Betrugsdatensatzes

Data Scientist
Hintergrund
Ein Datensatz zur Betrugserkennung enthält 95 % normale Transaktionen und nur 5 % Betrugsfälle.
Problem
Das Modell lernt, einfach immer 'normal' vorherzusagen, da dies in 95 % der Fälle richtig ist.
Verwendung
Laden Sie die CSV-Datei hoch, setzen Sie die Label-Spalte auf 'fraud_label' und wählen Sie 'oversample' als Strategie.
Beispielkonfiguration
{
  "labelColumn": "fraud_label",
  "strategy": "oversample",
  "exportFormat": "csv",
  "previewRows": 10
}
Ergebnis
Die Betrugsfälle werden dupliziert, bis ein 50:50-Verhältnis erreicht ist, was das Training eines robusteren Modells ermöglicht.

2. Reduzierung dominanter Klassen in Churn-Daten

Machine Learning Engineer
Hintergrund
Ein Datensatz zur Kundenabwanderung hat 10.000 aktive Kunden und 500 Abwanderer.
Problem
Ein schnelles Prototyping erfordert einen kleineren, balancierten Datensatz, um Trainingszeiten zu verkürzen.
Verwendung
Fügen Sie die Daten ein, geben Sie 'churn' als Label-Spalte an und wählen Sie 'undersample'.
Beispielkonfiguration
{
  "labelColumn": "churn",
  "strategy": "undersample",
  "exportFormat": "json",
  "previewRows": 20
}
Ergebnis
Die aktiven Kunden werden auf 500 zufällige Einträge reduziert, sodass ein kompakter, balancierter JSON-Datensatz mit 1.000 Zeilen entsteht.

Mit Samples testen

json, csv, text

Verwandte Hubs

FAQ

Welche Dateiformate werden unterstützt?

Das Tool verarbeitet CSV- und JSON-Dateien. Sie können Daten auch direkt als CSV-Text in das Eingabefeld einfügen.

Was ist der Unterschied zwischen Oversampling und Undersampling?

Oversampling dupliziert Zeilen der Minderheitsklasse, bis sie der Mehrheitsklasse entsprechen. Undersampling reduziert die Mehrheitsklasse auf die Größe der Minderheitsklasse.

Werden meine Daten auf dem Server gespeichert?

Nein, die gesamte Verarbeitung und das Resampling erfolgen lokal in Ihrem Browser. Es werden keine Daten hochgeladen.

Kann ich die balancierten Daten exportieren?

Ja, Sie können das Ergebnis als JSON oder CSV in der Vorschau anzeigen und für Ihre ML-Pipeline kopieren.

Ersetzt dieses Tool SMOTE?

Nein, es nutzt einfaches Duplizieren oder Kürzen. Es hilft jedoch bei der Entscheidung, ob komplexere Methoden wie SMOTE später sinnvoll sind.

API-Dokumentation

Request-Endpunkt

POST /de/api/tools/dataset-imbalance-detector-resampler

Request-Parameter

Parameter-Name Typ Erforderlich Beschreibung
datasetInput textarea Nein -
datasetFile file (Upload erforderlich) Nein -
labelColumn text Ja -
strategy select Nein -
exportFormat select Nein -
previewRows number Nein -

Dateitypparameter müssen erst über POST /upload/dataset-imbalance-detector-resampler hochgeladen werden, um filePath zu erhalten, dann filePath an das entsprechende Dateifeld übergeben.

Antwortformat

{
  "result": "
Processed HTML content
", "error": "Error message (optional)", "message": "Notification message (optional)", "metadata": { "key": "value" } }
HTML: HTML

MCP-Dokumentation

Fügen Sie dieses Tool zu Ihrer MCP-Server-Konfiguration hinzu:

{
  "mcpServers": {
    "elysiatools-dataset-imbalance-detector-resampler": {
      "name": "dataset-imbalance-detector-resampler",
      "description": "Erkennt Klassenungleichgewicht in CSV- oder JSON-Datensaetzen, vergleicht Strategien und zeigt ein balanciertes Ergebnis",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=dataset-imbalance-detector-resampler",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Sie können mehrere Tools verketten, z.B.: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, maximal 20 Tools.

Unterstützt URL-Dateilinks oder Base64-Codierung für Dateiparameter.

Wenn Sie auf Probleme stoßen, kontaktieren Sie uns bitte bei [email protected]