Outils de qualite des donnees, deduplication et detection d anomalies

Profilez des jeux de donnees CSV/JSON, comparez des versions de tableurs et reperez doublons, valeurs aberrantes, manques, ruptures relationnelles et anomalies temporelles dans un meme hub.

Ce hub rassemble les verifications que l on lance generalement avant de faire confiance a un jeu de donnees pour la BI, l ETL, le reporting, la migration ou le machine learning. Il combine profilage, deduplication, comparaison de feuilles, validation de cles etrangeres, nettoyage des bornes, traitement des valeurs manquantes et revue des anomalies afin de passer d une exportation suspecte a un dataset plus fiable sans ouvrir des outils sans rapport.

Faits du cluster

Type de tâche
analyze
Families
data-quality, anomaly, csv
Outils
13
Sous-clusters
3

Pourquoi ce hub existe

Le controle de qualite des donnees ne se limite presque jamais a un seul test. Il faut souvent verifier ensemble doublons, valeurs manquantes, outliers et relations cassees avant de reutiliser un dataset.
Regrouper les outils de profilage, de detection d anomalies et de correction aide a choisir plus vite ce qu il faut filtrer, plafonner, completer ou envoyer en verification manuelle.
Il offre un point de depart plus rapide aux analystes, aux equipes operations et aux projets de migration quand une exportation CSV ou JSON semble douteuse mais que la cause n est pas encore evidente.

Outils mis en avant

Profileur de qualite de dataset
Profile des jeux CSV ou JSON pour detecter manquants, doublons, derive de format, types et outliers.
Déduplicateur CSV
Supprimer les lignes en double basées sur des colonnes
Filtre CSV
Filtrer les données CSV par valeurs de colonnes avec conditions et opérateurs multiples. Prend en charge 12 opérateurs de filtre incluant equals, contains, greater_than, less_than et vérifications de valeurs vides. Exemples de Filtres Additionnels: [{"column": "age", "operator": "greater_than", "value": "25"}] [{"column": "statut", "operator": "equals", "value": "actif"}, {"column": "score", "operator": "greater_equal", "value": "80"}] [{"column": "nom", "operator": "contains", "value": "jean"}, {"column": "email", "operator": "is_not_empty"}]
Outil de diff CSV / Excel
Compare deux sources CSV ou XLSX et exporte un rapport PDF avec differences par ligne, colonne et cellule
Validateur de Clés Étrangères
Valider les relations de clés étrangères entre plusieurs ensembles de données. Parfait pour vérifier l'intégrité des données.
Processeur de Limites de Données
Outil avancé de traitement des limites qui identifie et gère les valeurs minimales et maximales dans les données numériques. Parfait pour la validation des données, la vérification des plages, l'analyse statistique et le prétraitement des données.
Interpolateur de Données
Outil avancé d'interpolation de données qui remplit les valeurs manquantes et génère des points de données en utilisant diverses méthodes mathématiques.
Détecteur de Valeurs Aberrantes
Détecte les valeurs aberrantes dans les données numériques en utilisant diverses méthodes statistiques incluant IQR, Z-score et Z-score modifié
Detecteur d anomalies de series temporelles
Importe des donnees de series temporelles en CSV ou JSON, detecte les anomalies avec Z-Score et IQR et renvoie un rapport graphique
Générateur de Boîtes à Moustaches
Générer des boîtes à moustaches pour l'analyse de distribution statistique avec quartiles, moustaches et valeurs aberrantes
Calculateur de score z
Calcule un score z depuis une valeur brute, des donnees ou des parametres manuels
Calculateur de moyenne tronquee
Calcule une moyenne tronquee en supprimant le meme pourcentage de valeurs basses et hautes
Calculateur de moyenne winsorisee
Calcule une moyenne winsorisee en plafonnant les valeurs extremes basses et hautes avant la moyenne

Tester avec des échantillons

data-quality, anomaly, csv

Hubs associés

FAQ

A quoi sert ce hub ?

Il aide a profiler des donnees tabulaires, comparer des versions de tableurs, supprimer des doublons, examiner les valeurs aberrantes, valider des relations, combler des manques et revoir des signaux d anomalie avant l etape suivante.

Pour qui ce hub est-il utile ?

Il est utile aux analystes, aux equipes ETL et data platform, aux responsables operations, aux projets de migration, aux relecteurs QA et a toute personne qui doit juger si un dataset CSV ou JSON est assez fiable pour etre reutilise.

Par ou commencer si les donnees semblent deja incorrectes ?

Commencez par le profiler de qualite pour une vue d ensemble, puis poursuivez avec la deduplication, le diff de tableurs, la revue d anomalies ou la validation relationnelle selon que le probleme ressemble surtout a des doublons, du drift, des valeurs manquantes ou des jointures cassees.