Datensatzqualitaets-Profiler

Profiling fuer CSV- oder JSON-Datensaetze mit Fehlwerten, Duplikaten, Formatdrift, Typen und Ausreissern.

Fuegen Sie CSV in "Datensatz-Eingabe" ein oder laden Sie eine CSV-/JSON-Datei hoch. Der Profiler untersucht jede Spalte und liefert einen schnellen Qualitaetsblick vor BI, ETL oder ML.

Was geprueft wird:

  • Fehlwerte pro Spalte
  • Doppelte Zeilen oder doppelte Kombinationen anhand der in "Duplikatspalten" angegebenen Felder
  • Typinferenz fuer Spalten: number, boolean, date, string oder empty
  • Numerische Ausreisser per IQR-aehnlicher Regel
  • Formatdrift in String-/Datumsfeldern, etwa gemischte Datumsstile oder Codes zusammen mit Freitext

So werden die Felder befuellt:

  • Datensatz-Eingabe: CSV-Text direkt einfuegen fuer ein schnelles Profil
  • Datendatei: CSV oder JSON hochladen, wenn der Datensatz groesser ist oder lokal vorliegt
  • Duplikatspalten: optional; kommagetrennte Schluessel wie id,email, um Duplikate nach Geschaeftsschluessel statt ganzer Zeile zu finden
  • Beispielzeilen: steuert, wie viele Beispielzeilen im Bericht angezeigt werden

So liest man den Bericht:

  • Quality score ist eine schnelle 0-100-Zusammenfassung; mehr Fehlwerte, Duplikate und Anomalien senken den Wert
  • Missing zeigt, wie viele leere/null-Zellen in der Spalte gefunden wurden
  • Distinct zeigt, wie viele unterschiedliche Werte vorkommen
  • Anomalies hebt numerische Ausreisser hervor
  • Format drift markiert Spalten mit strukturell uneinheitlichen Werten

Aktueller Umfang:

  • CSV und JSON werden unterstuetzt
  • JSON sollte ein Array von Objekten oder ein Objekt mit rows-Array sein
  • Der Score ist ein schneller operativer Hinweis und keine formale Data-Governance-Benotung

Beispielergebnisse

1 Beispiele

Transaktions-CSV vor BI profilieren

Findet Fehlwerte, Ausreisser, Duplikate und Typdrift vor dem Dashboard.

Dataset quality report
Eingabeparameter anzeigen
{ "datasetInput": "id,name,email,amount,created_at\n1,Alice,[email protected],120,2026-03-01\n2,Bob,,85,2026-03-02\n2,Bob,[email protected],85,03/02/2026\n3,Charlie,[email protected],9999,2026-03-03", "datasetFile": "", "duplicateKeyColumns": "id", "sampleRows": 8 }

Click to upload file or drag and drop file here

Maximum file size: 15MB Supported formats: text/csv, application/json, text/plain

Wichtige Fakten

Kategorie
Daten & Tabellen
Eingabetypen
textarea, file, text, number
Ausgabetyp
html
Sample-Abdeckung
4
API verfügbar
Yes

Überblick

Der Datensatzqualitäts-Profiler analysiert CSV- und JSON-Daten schnell und zuverlässig auf Fehlwerte, Duplikate, Formatabweichungen und numerische Ausreißer. Fügen Sie Ihre Daten einfach als Text ein oder laden Sie eine Datei hoch, um sofort einen detaillierten Qualitätsbericht mit einem übersichtlichen Score zu erhalten. Ideal zur schnellen Datenprüfung vor BI-, ETL- oder Machine-Learning-Prozessen.

Wann verwenden

  • Vor dem Import von Rohdaten in Business-Intelligence-Dashboards zur Vermeidung von Darstellungsfehlern.
  • Zur schnellen Überprüfung von ETL-Pipelines auf fehlende Werte oder unerwartete Formatänderungen.
  • Bei der Vorbereitung von Machine-Learning-Trainingsdaten, um numerische Ausreißer und Duplikate frühzeitig zu erkennen.

So funktioniert es

  • Fügen Sie Ihre CSV-Daten in das Textfeld ein oder laden Sie eine CSV- bzw. JSON-Datei hoch.
  • Definieren Sie optional spezifische Spalten (z. B. "id,email"), um Duplikate anhand von Geschäftsschlüsseln zu identifizieren.
  • Legen Sie die Anzahl der gewünschten Beispielzeilen fest, die im Bericht angezeigt werden sollen.
  • Das Tool generiert einen HTML-Bericht mit einem Quality Score, Typinferenz und Warnungen zu Anomalien oder Formatdrift.

Anwendungsfälle

Überprüfung von exportierten Kundenlisten auf doppelte E-Mail-Adressen und fehlende Namen.
Qualitätssicherung von Transaktionsdaten vor der Erstellung von monatlichen Finanz-Dashboards.
Erkennung von fehlerhaften Sensorwerten (Ausreißern) in IoT-Datenprotokollen.

Beispiele

1. Transaktions-CSV vor BI profilieren

Datenanalyst
Hintergrund
Ein Analyst muss täglich Verkaufsdaten in ein Dashboard laden, aber oft fehlen Werte oder es gibt doppelte Transaktions-IDs.
Problem
Fehlwerte, Ausreißer und Duplikate müssen vor dem Import ins BI-System schnell identifiziert werden.
Verwendung
Fügen Sie die CSV-Daten ein, setzen Sie die Duplikatspalten auf `id` und generieren Sie den Bericht.
Beispielkonfiguration
Duplikatspalten: id
Beispielzeilen: 8
Ergebnis
Der Bericht zeigt sofort, dass eine Transaktions-ID doppelt vorhanden ist und bei einem Eintrag die E-Mail fehlt. Der Quality Score sinkt entsprechend.

2. Kunden-JSON auf Formatdrift prüfen

Data Engineer
Hintergrund
Ein Data Engineer erhält JSON-Exporte aus verschiedenen CRM-Systemen, bei denen Datumsformate oft inkonsistent sind.
Problem
Erkennung von gemischten Datumsstilen und fehlenden Werten in der Spalte 'created_at'.
Verwendung
Laden Sie die JSON-Datei hoch und prüfen Sie den generierten HTML-Bericht auf Warnungen im Bereich 'Format drift'.
Ergebnis
Das Tool markiert die Spalte 'created_at' aufgrund von Formatdrift (z. B. YYYY-MM-DD gemischt mit MM/DD/YYYY) und hebt die strukturellen Inkonsistenzen hervor.

Mit Samples testen

json, csv, text

Verwandte Hubs

FAQ

Welche Dateiformate werden unterstützt?

Das Tool unterstützt CSV- und JSON-Dateien. JSON-Daten sollten als Array von Objekten oder als Objekt mit einem "rows"-Array formatiert sein.

Wie wird der Quality Score berechnet?

Der Score ist ein Wert von 0 bis 100. Er sinkt, je mehr leere Zellen, doppelte Zeilen oder Anomalien im Datensatz gefunden werden.

Was bedeutet "Format drift" im Bericht?

Formatdrift zeigt an, dass die Werte in einer Spalte strukturell uneinheitlich sind, beispielsweise wenn Datumsformate gemischt werden oder Text in einer Zahlenspalte auftaucht.

Kann ich Duplikate nur anhand bestimmter Spalten finden?

Ja, Sie können im Feld "Duplikatspalten" kommagetrennte Spaltennamen (wie "id,email") angeben, um gezielt nach doppelten Geschäftsschlüsseln zu suchen, anstatt ganze Zeilen zu vergleichen.

Ist dieses Tool ein Ersatz für Data-Governance-Software?

Nein, der Profiler liefert einen schnellen operativen Hinweis auf die Datenqualität und ist keine formale Data-Governance-Benotung.

API-Dokumentation

Request-Endpunkt

POST /de/api/tools/dataset-quality-profiler

Request-Parameter

Parameter-Name Typ Erforderlich Beschreibung
datasetInput textarea Nein -
datasetFile file (Upload erforderlich) Nein -
duplicateKeyColumns text Nein -
sampleRows number Nein -

Dateitypparameter müssen erst über POST /upload/dataset-quality-profiler hochgeladen werden, um filePath zu erhalten, dann filePath an das entsprechende Dateifeld übergeben.

Antwortformat

{
  "result": "
Processed HTML content
", "error": "Error message (optional)", "message": "Notification message (optional)", "metadata": { "key": "value" } }
HTML: HTML

MCP-Dokumentation

Fügen Sie dieses Tool zu Ihrer MCP-Server-Konfiguration hinzu:

{
  "mcpServers": {
    "elysiatools-dataset-quality-profiler": {
      "name": "dataset-quality-profiler",
      "description": "Profiling fuer CSV- oder JSON-Datensaetze mit Fehlwerten, Duplikaten, Formatdrift, Typen und Ausreissern.",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=dataset-quality-profiler",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Sie können mehrere Tools verketten, z.B.: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, maximal 20 Tools.

Unterstützt URL-Dateilinks oder Base64-Codierung für Dateiparameter.

Wenn Sie auf Probleme stoßen, kontaktieren Sie uns bitte bei [email protected]