Outils de qualite des donnees, deduplication et detection d anomalies
Profilez des jeux de donnees CSV/JSON, comparez des versions de tableurs et reperez doublons, valeurs aberrantes, manques, ruptures relationnelles et anomalies temporelles dans un meme hub.
Ce hub rassemble les verifications que l on lance generalement avant de faire confiance a un jeu de donnees pour la BI, l ETL, le reporting, la migration ou le machine learning. Il combine profilage, deduplication, comparaison de feuilles, validation de cles etrangeres, nettoyage des bornes, traitement des valeurs manquantes et revue des anomalies afin de passer d une exportation suspecte a un dataset plus fiable sans ouvrir des outils sans rapport.
Faits du cluster
- Type de tâche
- analyze
- Families
- data-quality, anomaly, csv
- Outils
- 13
- Sous-clusters
- 3
Pourquoi ce hub existe
Outils mis en avant
Tester avec des échantillons
data-quality, anomaly, csvHubs associés
FAQ
A quoi sert ce hub ?
Il aide a profiler des donnees tabulaires, comparer des versions de tableurs, supprimer des doublons, examiner les valeurs aberrantes, valider des relations, combler des manques et revoir des signaux d anomalie avant l etape suivante.
Pour qui ce hub est-il utile ?
Il est utile aux analystes, aux equipes ETL et data platform, aux responsables operations, aux projets de migration, aux relecteurs QA et a toute personne qui doit juger si un dataset CSV ou JSON est assez fiable pour etre reutilise.
Par ou commencer si les donnees semblent deja incorrectes ?
Commencez par le profiler de qualite pour une vue d ensemble, puis poursuivez avec la deduplication, le diff de tableurs, la revue d anomalies ou la validation relationnelle selon que le probleme ressemble surtout a des doublons, du drift, des valeurs manquantes ou des jointures cassees.