Wichtige Fakten
- Kategorie
- Data Processing
- Eingabetypen
- textarea, select, number, checkbox
- Ausgabetyp
- text
- Sample-Abdeckung
- 4
- API verfügbar
- Yes
Überblick
Der Ausreißer-Prozessor ist ein leistungsstarkes Werkzeug zur Identifizierung und Bereinigung anomaler Werte in Ihren Datensätzen. Durch den Einsatz bewährter statistischer Methoden wie IQR, Z-Score oder Isolation Forest hilft Ihnen das Tool dabei, Datenqualität zu sichern und Verzerrungen in Ihren Analysen zu vermeiden.
Wann verwenden
- •Vor der Durchführung statistischer Analysen, um die Genauigkeit der Ergebnisse zu gewährleisten.
- •Bei der Vorbereitung von Datensätzen für Machine-Learning-Modelle, um Rauschen zu reduzieren.
- •Zur Bereinigung von Sensordaten oder Finanzberichten, in denen extreme Ausreißer auf Fehler hindeuten könnten.
So funktioniert es
- •Laden Sie Ihre CSV-Daten in das Eingabefeld hoch und wählen Sie optional die zu prüfenden Spalten aus.
- •Wählen Sie eine statistische Erkennungsmethode (z. B. IQR oder Z-Score) und legen Sie die Empfindlichkeit fest.
- •Bestimmen Sie die Behandlungsstrategie, um Ausreißer entweder zu entfernen, durch Mittelwerte zu ersetzen oder zu begrenzen.
- •Starten Sie den Prozess und laden Sie die bereinigten Daten inklusive optionaler Statistiken herunter.
Anwendungsfälle
Beispiele
1. Bereinigung von Sensordaten
Datenanalyst- Hintergrund
- Ein IoT-Sensor liefert kontinuierlich Temperaturdaten, weist jedoch gelegentlich extreme Fehlmessungen auf.
- Problem
- Die Fehlmessungen verfälschen den Durchschnittswert der täglichen Temperaturaufzeichnungen.
- Verwendung
- CSV-Daten hochladen, 'Z-Score-Methode' wählen und die Strategie auf 'Ersetzen' mit 'Median' setzen.
- Beispielkonfiguration
-
detectionMethod: zscore, handlingStrategy: replace, replacementMethod: median - Ergebnis
- Die extremen Ausreißer wurden durch den Median ersetzt, wodurch der Durchschnittswert nun die tatsächliche Temperatur korrekt widerspiegelt.
2. Vorbereitung von Verkaufsdaten
Business Intelligence Manager- Hintergrund
- Ein Datensatz enthält monatliche Verkaufszahlen, die durch einige wenige, extrem hohe Sonderverkäufe verzerrt sind.
- Problem
- Die Ausreißer erschweren die Prognose für das reguläre monatliche Geschäft.
- Verwendung
- IQR-Methode anwenden und die Strategie 'Mark' wählen, um die Ausreißer für eine manuelle Prüfung zu kennzeichnen.
- Beispielkonfiguration
-
detectionMethod: iqr, handlingStrategy: mark, markOutliers: true - Ergebnis
- Die Ausreißer wurden in einer neuen Spalte markiert, sodass der Analyst entscheiden kann, welche Sonderverkäufe für die Prognose ignoriert werden sollen.
Mit Samples testen
csv, video, qrVerwandte Hubs
FAQ
Welche Methoden zur Erkennung werden unterstützt?
Das Tool unterstützt IQR (Interquartilsabstand), Z-Score, Modified Z-Score, Simple Range und Isolation Forest.
Was passiert, wenn ich 'Ersetzen' als Strategie wähle?
Ausreißer werden durch statistische Werte wie den Mittelwert, Median, Modus oder mittels linearer Interpolation ersetzt.
Kann ich die Originaldaten beibehalten?
Ja, Sie können die Option 'Originale Spalten erhalten' aktivieren, um die ursprünglichen Werte neben den bereinigten Daten zu speichern.
Wie funktioniert die 'Cap'-Strategie?
Bei der Cap-Strategie werden Werte, die außerhalb der definierten Grenzen liegen, auf den jeweiligen Grenzwert (Minimum oder Maximum) gesetzt.
Ist das Tool für große Datensätze geeignet?
Ja, der Ausreißer-Prozessor ist für die effiziente Verarbeitung von CSV-Daten optimiert und unterstützt auch komplexe statistische Berechnungen.