Wichtige Fakten
- Kategorie
- Data Processing
- Eingabetypen
- textarea, select, number, checkbox
- Ausgabetyp
- text
- Sample-Abdeckung
- 4
- API verfügbar
- Yes
Überblick
Der Daten-Grenzverarbeiter ist ein leistungsstarkes Werkzeug zur präzisen Identifizierung und automatisierten Bereinigung von numerischen Ausreißern. Er ermöglicht es Ihnen, Datensätze durch flexible Methoden wie absolute Grenzwerte, Perzentile oder statistische Standardabweichungen zu validieren und unerwünschte Werte effizient zuzuschneiden, zu ersetzen oder zu entfernen.
Wann verwenden
- •Bereinigung von Sensordaten, die durch Messfehler unrealistische Extremwerte aufweisen.
- •Vorbereitung von Datensätzen für statistische Analysen oder Machine-Learning-Modelle durch Entfernung von Ausreißern.
- •Durchsetzung von Geschäftsregeln, bei denen numerische Eingaben innerhalb eines definierten Wertebereichs liegen müssen.
So funktioniert es
- •Laden Sie Ihre CSV-Daten hoch und wählen Sie optional die zu prüfenden Zielspalten aus.
- •Definieren Sie die Grenzwerte über eine der Methoden wie absolute Werte, Perzentile oder Standardabweichungen.
- •Wählen Sie eine Verarbeitungsstrategie, um Grenzverletzungen durch Zuschneiden, Ersetzen oder Löschen zu korrigieren.
- •Lassen Sie die Grenzwerte bei Bedarf markieren oder statistische Berichte zur Datenqualität generieren.
Anwendungsfälle
Beispiele
1. Bereinigung von Sensordaten
Datenanalyst- Hintergrund
- Ein Datensatz enthält Temperaturmessungen, die aufgrund von Sensorfehlern gelegentlich unrealistische Werte über 100°C aufweisen.
- Problem
- Die Ausreißer verfälschen den Durchschnittswert der Messreihe.
- Verwendung
- CSV hochladen, Zielspalte 'Temperatur' wählen, 'Obere Grenzmethode' auf 'absolute' setzen, Wert '50' eingeben und Strategie 'clip' wählen.
- Beispielkonfiguration
-
maxMethod: absolute, maxValue: 50, handlingStrategy: clip - Ergebnis
- Alle Temperaturwerte über 50°C werden automatisch auf 50°C begrenzt, wodurch die statistische Analyse stabilisiert wird.
2. Entfernung statistischer Ausreißer
Data Scientist- Hintergrund
- Ein Datensatz mit Gehaltsdaten enthält extreme Spitzen, die nicht repräsentativ für die Verteilung sind.
- Problem
- Die Daten sollen für ein Modell auf den Bereich zwischen dem 5. und 95. Perzentil begrenzt werden.
- Verwendung
- CSV hochladen, 'Perzentil' als Methode für Min und Max wählen und die Werte auf 5 bzw. 95 einstellen.
- Beispielkonfiguration
-
minMethod: percentile, maxMethod: percentile, lowerPercentile: 5, upperPercentile: 95, handlingStrategy: remove - Ergebnis
- Zeilen, deren Gehaltswerte außerhalb des 5%- bis 95%-Bereichs liegen, werden vollständig aus dem Datensatz entfernt.
Mit Samples testen
csv, video, barcodeVerwandte Hubs
FAQ
Welche Methoden zur Grenzerkennung werden unterstützt?
Sie können zwischen absoluten Werten, Perzentilen, Standardabweichungen oder dem tatsächlichen Minimum/Maximum der Daten wählen.
Was passiert mit Werten, die außerhalb der Grenzen liegen?
Je nach gewählter Strategie werden diese Werte zugeschnitten (auf die Grenze gesetzt), entfernt, durch Mittelwerte ersetzt oder transformiert.
Kann ich unterschiedliche Grenzen für Min und Max festlegen?
Ja, durch Aktivierung des asymmetrischen Modus können Sie für das Minimum und das Maximum jeweils individuelle Methoden und Werte konfigurieren.
Bleiben meine Originaldaten erhalten?
Wenn Sie die Option 'Originalspalten erhalten' wählen, werden die bereinigten Werte in neuen Spalten ausgegeben, während die ursprünglichen Daten unverändert bleiben.
Ist das Tool für große Datensätze geeignet?
Ja, das Tool ist für die effiziente Verarbeitung von CSV-Daten optimiert und eignet sich ideal für die Vorverarbeitung umfangreicher numerischer Tabellen.