Tools fuer Datenqualitaet, Dublettenbereinigung und Anomalieerkennung

Profilieren Sie CSV/JSON-Datensaetze, vergleichen Sie Tabellenversionen und finden Sie Dubletten, Ausreisser, fehlende Werte, Beziehungsbrueche und Zeitreihenanomalien in einem Hub fuer Datenqualitaet.

Dieser Hub konzentriert sich auf die Pruefungen, die Teams meist ausfuehren, bevor sie einem Datensatz fuer BI, ETL, Reporting, Migration oder Machine Learning vertrauen. Er kombiniert Profiling, Dublettenbereinigung, Tabellenvergleich, Fremdschluesselpruefung, Grenzwertbereinigung, Auffuellen fehlender Werte und Anomalieanalyse, damit Nutzer schneller von einem verdaechtigen Export zu einem besser nutzbaren Datensatz kommen.

Cluster-Fakten

Aufgabentyp
analyze
Families
data-quality, anomaly, csv
Tools
13
Subcluster
3

Warum es diesen Hub gibt

Datenqualitaetsarbeit endet selten nach einem einzigen Check. Vor der Weiterverwendung muessen Dubletten, fehlende Werte, Ausreisser und kaputte Beziehungen oft gemeinsam beurteilt werden.
Wenn Profiling-, Anomalie- und Reparatur-Tools an einem Ort liegen, laesst sich schneller entscheiden, was gefiltert, begrenzt, aufgefuellt oder manuell geprueft werden sollte.
Der Hub gibt Analysten, Operations-Teams und Migrationsprojekten einen schnelleren Startpunkt, wenn ein CSV- oder JSON-Export verdaechtig aussieht, die eigentliche Ursache aber noch unklar ist.

Ausgewählte Tools

Datensatzqualitaets-Profiler
Profiling fuer CSV- oder JSON-Datensaetze mit Fehlwerten, Duplikaten, Formatdrift, Typen und Ausreissern.
CSV-Deduplizierer
Entfernt doppelte Zeilen basierend auf Spaltenkombinationen
CSV Filter
CSV-Daten nach Spaltenwerten mit mehreren Bedingungen und Operatoren filtern. Unterstützt 12 Filteroperatoren einschließlich equals, contains, greater_than, less_than und Leerwert-Prüfungen. Zusätzliche Filter Beispiele: [{"column": "alter", "operator": "greater_than", "value": "25"}] [{"column": "status", "operator": "equals", "value": "aktiv"}, {"column": "punktzahl", "operator": "greater_equal", "value": "80"}] [{"column": "name", "operator": "contains", "value": "hans"}, {"column": "email", "operator": "is_not_empty"}]
CSV / Excel-Diff-Tool
Vergleicht zwei CSV- oder XLSX-Quellen und exportiert einen PDF-Bericht mit Zeilen-, Spalten- und Zellunterschieden
Fremdschlüssel-Validator
Fremdschlüssel-Beziehungen zwischen mehreren Datensätzen validieren. Perfekt für Datenintegritätsprüfungen.
Daten-Grenzverarbeiter
Erweitertes Grenzwertverarbeitungswerkzeug zur Identifizierung und Handhabung von Minimum- und Maximumwerten in numerischen Daten. Perfekt für Datenvalidierung, Bereichsprüfung, statistische Analyse und Datenvorverarbeitung.
Daten-Interpolierer
Erweiterte Dateninterpolationstools zum Füllen fehlender Werte und Generieren von Datenpunkten mit verschiedenen mathematischen Methoden.
Ausreißer-Detektor
Erkennt Ausreißer in numerischen Daten mit verschiedenen statistischen Methoden einschließlich IQR, Z-Score und modifiziertem Z-Score
Zeitreihen-Anomalie-Detektor
Liest Zeitreihendaten aus CSV oder JSON ein, erkennt Anomalien per Z-Score und IQR und gibt einen Chart-gestuetzten Bericht aus
Boxplot-Generator
Boxplots für statistische Verteilungsanalyse mit Quartilen, Whiskern und Ausreißern erstellen
Z-Score-Rechner
Berechnet Z-Scores aus Rohwert, Datensatz oder manuell eingegebenen Parametern
Getrimmter-Mittelwert-Rechner
Berechnet einen getrimmten Mittelwert nach Entfernen gleicher Anteile niedriger und hoher Werte
Winsorisierter-Mittelwert-Rechner
Berechnet einen winsorisierten Mittelwert durch Begrenzen niedriger und hoher Extremwerte vor dem Mitteln

Mit Samples testen

data-quality, anomaly, csv

Verwandte Hubs

FAQ

Wobei hilft dieser Hub?

Er hilft beim Profilieren tabellarischer Daten, beim Vergleichen von Tabellenversionen, beim Entfernen doppelter Zeilen, beim Pruefen von Ausreissern, beim Validieren von Beziehungen, beim Schliessen von Luecken und beim Bewerten von Anomaliesignalen vor dem naechsten Schritt.

Fuer wen ist dieser Hub gedacht?

Er ist hilfreich fuer Analysten, ETL- und Datenplattform-Teams, operative Verantwortliche, Migrationsprojekte, QA-Pruefer und alle, die entscheiden muessen, ob ein CSV- oder JSON-Datensatz vertrauenswuerdig genug ist.

Wo sollte ich anfangen, wenn die Daten schon falsch aussehen?

Beginnen Sie mit dem Datenqualitaets-Profiling fuer einen Gesamtueberblick und wechseln Sie dann je nach Hauptproblem zu Dublettenbereinigung, Tabellen-Diff, Anomaliepruefung oder Beziehungskontrolle.