Wichtige Fakten
- Kategorie
- Data Processing
- Eingabetypen
- textarea, select, checkbox, range
- Ausgabetyp
- text
- Sample-Abdeckung
- 4
- API verfügbar
- Yes
Überblick
Der CSV-Deduplizierer ist ein effizientes Werkzeug, um Ihre Datensätze schnell und präzise von doppelten Einträgen zu befreien, indem er Zeilen basierend auf spezifischen Spaltenkombinationen analysiert und bereinigt.
Wann verwenden
- •Wenn Sie Kundenlisten oder Kontakt-Datenbanken aus verschiedenen Quellen zusammenführen und Dubletten eliminieren müssen.
- •Zur Vorbereitung von Datensätzen für den Import in CRM-Systeme oder Newsletter-Tools, um Datenqualität sicherzustellen.
- •Wenn Sie große CSV-Dateien bereinigen möchten, bei denen identische Einträge die Analyseergebnisse verfälschen könnten.
So funktioniert es
- •Fügen Sie Ihre CSV-Daten in das Eingabefeld ein und definieren Sie die Spalten, die zur Identifizierung von Duplikaten herangezogen werden sollen.
- •Wählen Sie eine Deduplizierungsstrategie, wie z. B. das Behalten des ersten oder des vollständigsten Datensatzes.
- •Nutzen Sie bei Bedarf das Fuzzy-Matching, um auch leicht abweichende Einträge zu finden, und starten Sie den Bereinigungsprozess mit einem Klick.
Anwendungsfälle
Beispiele
1. Bereinigung einer Kunden-Kontaktliste
Marketing-Manager- Hintergrund
- Ein Marketing-Manager hat zwei CSV-Listen mit Kundenkontakten zusammengeführt, die nun zahlreiche doppelte E-Mail-Adressen enthalten.
- Problem
- Die Liste enthält Duplikate, die zu Fehlern im E-Mail-Versand führen könnten.
- Verwendung
- CSV-Daten einfügen, 'email' als Deduplizierungsspalte wählen und die Strategie 'Ersten Datensatz Behalten' anwenden.
- Beispielkonfiguration
-
strategy: first, deduplicationColumns: email, trimValues: true - Ergebnis
- Alle Zeilen mit doppelten E-Mail-Adressen wurden entfernt, wobei nur der erste gefundene Kontakt erhalten blieb.
2. Zusammenführung von CRM-Daten mit Tippfehlern
Datenanalyst- Hintergrund
- Zwei Datensätze enthalten Kundennamen, die aufgrund manueller Eingabe leicht variieren (z. B. 'Max Mustermann' vs. 'Max Musterman').
- Problem
- Standard-Deduplizierung erkennt diese Einträge nicht als Duplikate.
- Verwendung
- Fuzzy-Matching aktivieren und den Schwellenwert auf 90 setzen, um ähnliche Namen zu identifizieren.
- Beispielkonfiguration
-
fuzzyMatching: true, fuzzyThreshold: 90, deduplicationColumns: name - Ergebnis
- Die Liste wurde bereinigt, indem ähnliche Namen als Duplikate erkannt und zu einem einzigen, sauberen Datensatz zusammengefasst wurden.
Mit Samples testen
csv, video, barcodeVerwandte Hubs
FAQ
Kann ich mehrere Spalten zur Identifizierung von Duplikaten nutzen?
Ja, Sie können eine Kombination aus mehreren Spalten angeben, um die Eindeutigkeit einer Zeile festzulegen.
Was bewirkt die Option 'Vollständigsten Datensatz Behalten'?
Diese Strategie vergleicht Duplikate und behält automatisch die Zeile, die die meisten ausgefüllten Felder enthält.
Wie funktioniert das Fuzzy-Matching?
Fuzzy-Matching erkennt Ähnlichkeiten in Texten, die nicht zu 100 % identisch sind, basierend auf einem einstellbaren Schwellenwert.
Bleibt die Reihenfolge meiner Daten erhalten?
Ja, standardmäßig ist die Option 'Originale Reihenfolge Beibehalten' aktiviert, damit Ihre Datenstruktur unverändert bleibt.
Werden Leerzeichen bei der Prüfung berücksichtigt?
Durch die Option 'Leerzeichen Entfernen' werden führende und nachgestellte Leerzeichen vor dem Vergleich automatisch bereinigt.