Wichtige Fakten
- Kategorie
- Daten & Tabellen
- Eingabetypen
- textarea, file, text, number
- Ausgabetyp
- html
- Sample-Abdeckung
- 4
- API verfügbar
- Yes
Überblick
Der Datensatzqualitäts-Profiler analysiert CSV- und JSON-Daten schnell und zuverlässig auf Fehlwerte, Duplikate, Formatabweichungen und numerische Ausreißer. Fügen Sie Ihre Daten einfach als Text ein oder laden Sie eine Datei hoch, um sofort einen detaillierten Qualitätsbericht mit einem übersichtlichen Score zu erhalten. Ideal zur schnellen Datenprüfung vor BI-, ETL- oder Machine-Learning-Prozessen.
Wann verwenden
- •Vor dem Import von Rohdaten in Business-Intelligence-Dashboards zur Vermeidung von Darstellungsfehlern.
- •Zur schnellen Überprüfung von ETL-Pipelines auf fehlende Werte oder unerwartete Formatänderungen.
- •Bei der Vorbereitung von Machine-Learning-Trainingsdaten, um numerische Ausreißer und Duplikate frühzeitig zu erkennen.
So funktioniert es
- •Fügen Sie Ihre CSV-Daten in das Textfeld ein oder laden Sie eine CSV- bzw. JSON-Datei hoch.
- •Definieren Sie optional spezifische Spalten (z. B. "id,email"), um Duplikate anhand von Geschäftsschlüsseln zu identifizieren.
- •Legen Sie die Anzahl der gewünschten Beispielzeilen fest, die im Bericht angezeigt werden sollen.
- •Das Tool generiert einen HTML-Bericht mit einem Quality Score, Typinferenz und Warnungen zu Anomalien oder Formatdrift.
Anwendungsfälle
Beispiele
1. Transaktions-CSV vor BI profilieren
Datenanalyst- Hintergrund
- Ein Analyst muss täglich Verkaufsdaten in ein Dashboard laden, aber oft fehlen Werte oder es gibt doppelte Transaktions-IDs.
- Problem
- Fehlwerte, Ausreißer und Duplikate müssen vor dem Import ins BI-System schnell identifiziert werden.
- Verwendung
- Fügen Sie die CSV-Daten ein, setzen Sie die Duplikatspalten auf `id` und generieren Sie den Bericht.
- Beispielkonfiguration
-
Duplikatspalten: id Beispielzeilen: 8 - Ergebnis
- Der Bericht zeigt sofort, dass eine Transaktions-ID doppelt vorhanden ist und bei einem Eintrag die E-Mail fehlt. Der Quality Score sinkt entsprechend.
2. Kunden-JSON auf Formatdrift prüfen
Data Engineer- Hintergrund
- Ein Data Engineer erhält JSON-Exporte aus verschiedenen CRM-Systemen, bei denen Datumsformate oft inkonsistent sind.
- Problem
- Erkennung von gemischten Datumsstilen und fehlenden Werten in der Spalte 'created_at'.
- Verwendung
- Laden Sie die JSON-Datei hoch und prüfen Sie den generierten HTML-Bericht auf Warnungen im Bereich 'Format drift'.
- Ergebnis
- Das Tool markiert die Spalte 'created_at' aufgrund von Formatdrift (z. B. YYYY-MM-DD gemischt mit MM/DD/YYYY) und hebt die strukturellen Inkonsistenzen hervor.
Mit Samples testen
json, csv, textVerwandte Hubs
FAQ
Welche Dateiformate werden unterstützt?
Das Tool unterstützt CSV- und JSON-Dateien. JSON-Daten sollten als Array von Objekten oder als Objekt mit einem "rows"-Array formatiert sein.
Wie wird der Quality Score berechnet?
Der Score ist ein Wert von 0 bis 100. Er sinkt, je mehr leere Zellen, doppelte Zeilen oder Anomalien im Datensatz gefunden werden.
Was bedeutet "Format drift" im Bericht?
Formatdrift zeigt an, dass die Werte in einer Spalte strukturell uneinheitlich sind, beispielsweise wenn Datumsformate gemischt werden oder Text in einer Zahlenspalte auftaucht.
Kann ich Duplikate nur anhand bestimmter Spalten finden?
Ja, Sie können im Feld "Duplikatspalten" kommagetrennte Spaltennamen (wie "id,email") angeben, um gezielt nach doppelten Geschäftsschlüsseln zu suchen, anstatt ganze Zeilen zu vergleichen.
Ist dieses Tool ein Ersatz für Data-Governance-Software?
Nein, der Profiler liefert einen schnellen operativen Hinweis auf die Datenqualität und ist keine formale Data-Governance-Benotung.