Kategorien

CSV-Deduplizierer

Entfernt doppelte Zeilen basierend auf Spaltenkombinationen

0 85 100

Wichtige Fakten

Kategorie
Data Processing
Eingabetypen
textarea, select, checkbox, range
Ausgabetyp
text
Sample-Abdeckung
4
API verfügbar
Yes

Überblick

Der CSV-Deduplizierer ist ein effizientes Werkzeug, um Ihre Datensätze schnell und präzise von doppelten Einträgen zu befreien, indem er Zeilen basierend auf spezifischen Spaltenkombinationen analysiert und bereinigt.

Wann verwenden

  • Wenn Sie Kundenlisten oder Kontakt-Datenbanken aus verschiedenen Quellen zusammenführen und Dubletten eliminieren müssen.
  • Zur Vorbereitung von Datensätzen für den Import in CRM-Systeme oder Newsletter-Tools, um Datenqualität sicherzustellen.
  • Wenn Sie große CSV-Dateien bereinigen möchten, bei denen identische Einträge die Analyseergebnisse verfälschen könnten.

So funktioniert es

  • Fügen Sie Ihre CSV-Daten in das Eingabefeld ein und definieren Sie die Spalten, die zur Identifizierung von Duplikaten herangezogen werden sollen.
  • Wählen Sie eine Deduplizierungsstrategie, wie z. B. das Behalten des ersten oder des vollständigsten Datensatzes.
  • Nutzen Sie bei Bedarf das Fuzzy-Matching, um auch leicht abweichende Einträge zu finden, und starten Sie den Bereinigungsprozess mit einem Klick.

Anwendungsfälle

Bereinigung von E-Mail-Marketing-Listen zur Vermeidung von Mehrfachversendungen.
Zusammenführung von Excel- oder CSV-Exporten aus verschiedenen Abteilungen in eine zentrale Datenbank.
Identifizierung und Zusammenfassung von Kundenkontakten mit leicht abweichenden Schreibweisen durch Fuzzy-Matching.

Beispiele

1. Bereinigung einer Kunden-Kontaktliste

Marketing-Manager
Hintergrund
Ein Marketing-Manager hat zwei CSV-Listen mit Kundenkontakten zusammengeführt, die nun zahlreiche doppelte E-Mail-Adressen enthalten.
Problem
Die Liste enthält Duplikate, die zu Fehlern im E-Mail-Versand führen könnten.
Verwendung
CSV-Daten einfügen, 'email' als Deduplizierungsspalte wählen und die Strategie 'Ersten Datensatz Behalten' anwenden.
Beispielkonfiguration
strategy: first, deduplicationColumns: email, trimValues: true
Ergebnis
Alle Zeilen mit doppelten E-Mail-Adressen wurden entfernt, wobei nur der erste gefundene Kontakt erhalten blieb.

2. Zusammenführung von CRM-Daten mit Tippfehlern

Datenanalyst
Hintergrund
Zwei Datensätze enthalten Kundennamen, die aufgrund manueller Eingabe leicht variieren (z. B. 'Max Mustermann' vs. 'Max Musterman').
Problem
Standard-Deduplizierung erkennt diese Einträge nicht als Duplikate.
Verwendung
Fuzzy-Matching aktivieren und den Schwellenwert auf 90 setzen, um ähnliche Namen zu identifizieren.
Beispielkonfiguration
fuzzyMatching: true, fuzzyThreshold: 90, deduplicationColumns: name
Ergebnis
Die Liste wurde bereinigt, indem ähnliche Namen als Duplikate erkannt und zu einem einzigen, sauberen Datensatz zusammengefasst wurden.

Mit Samples testen

csv, video, barcode

Verwandte Hubs

FAQ

Kann ich mehrere Spalten zur Identifizierung von Duplikaten nutzen?

Ja, Sie können eine Kombination aus mehreren Spalten angeben, um die Eindeutigkeit einer Zeile festzulegen.

Was bewirkt die Option 'Vollständigsten Datensatz Behalten'?

Diese Strategie vergleicht Duplikate und behält automatisch die Zeile, die die meisten ausgefüllten Felder enthält.

Wie funktioniert das Fuzzy-Matching?

Fuzzy-Matching erkennt Ähnlichkeiten in Texten, die nicht zu 100 % identisch sind, basierend auf einem einstellbaren Schwellenwert.

Bleibt die Reihenfolge meiner Daten erhalten?

Ja, standardmäßig ist die Option 'Originale Reihenfolge Beibehalten' aktiviert, damit Ihre Datenstruktur unverändert bleibt.

Werden Leerzeichen bei der Prüfung berücksichtigt?

Durch die Option 'Leerzeichen Entfernen' werden führende und nachgestellte Leerzeichen vor dem Vergleich automatisch bereinigt.

API-Dokumentation

Request-Endpunkt

POST /de/api/tools/data-deduplicator

Request-Parameter

Parameter-Name Typ Erforderlich Beschreibung
inputData textarea Ja -
deduplicationColumns textarea Nein -
strategy select Nein -
fuzzyMatching checkbox Nein -
fuzzyThreshold range Nein -
caseSensitive checkbox Nein -
trimValues checkbox Nein -
preserveOriginalOrder checkbox Nein -

Antwortformat

{
  "result": "Processed text content",
  "error": "Error message (optional)",
  "message": "Notification message (optional)",
  "metadata": {
    "key": "value"
  }
}
Text: Text

MCP-Dokumentation

Fügen Sie dieses Tool zu Ihrer MCP-Server-Konfiguration hinzu:

{
  "mcpServers": {
    "elysiatools-data-deduplicator": {
      "name": "data-deduplicator",
      "description": "Entfernt doppelte Zeilen basierend auf Spaltenkombinationen",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=data-deduplicator",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Sie können mehrere Tools verketten, z.B.: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, maximal 20 Tools.

Wenn Sie auf Probleme stoßen, kontaktieren Sie uns bitte bei [email protected]