Outils de qualite des donnees, deduplication et detection d anomalies

Outils de qualite des donnees, deduplication et detection d anomalies | Elysia Tools

Guide d'utilisation de l'outil

Découvrez quand utiliser cet outil, ce qu'il prend en charge et comment les utilisateurs l'appliquent.

Aperçu

Ce hub rassemble les verifications que l on lance generalement avant de faire confiance a un jeu de donnees pour la BI, l ETL, le reporting, la migration ou le machine learning. Il combine profilage, deduplication, comparaison de feuilles, validation de cles etrangeres, nettoyage des bornes, traitement des valeurs manquantes et revue des anomalies afin de passer d une exportation suspecte a un dataset plus fiable sans ouvrir des outils sans rapport.

Quand l’utiliser

Le controle de qualite des donnees ne se limite presque jamais a un seul test. Il faut souvent verifier ensemble doublons, valeurs manquantes, outliers et relations cassees avant de reutiliser un dataset.
Regrouper les outils de profilage, de detection d anomalies et de correction aide a choisir plus vite ce qu il faut filtrer, plafonner, completer ou envoyer en verification manuelle.
Il offre un point de depart plus rapide aux analystes, aux equipes operations et aux projets de migration quand une exportation CSV ou JSON semble douteuse mais que la cause n est pas encore evidente.

Fonctionnement

1dataset-profiling-and-deduplication
2outlier-and-anomaly-review
3relational-and-time-series-quality-checks

Cas d’usage

outils qualite des donnees
suppression des doublons
detection d anomalies dataset
controle qualite CSV
comparaison de tableurs
validation de cle etrangere
nettoyage des valeurs manquantes
detection des valeurs aberrantes

FAQ

A quoi sert ce hub ?

Il aide a profiler des donnees tabulaires, comparer des versions de tableurs, supprimer des doublons, examiner les valeurs aberrantes, valider des relations, combler des manques et revoir des signaux d anomalie avant l etape suivante.

Pour qui ce hub est-il utile ?

Il est utile aux analystes, aux equipes ETL et data platform, aux responsables operations, aux projets de migration, aux relecteurs QA et a toute personne qui doit juger si un dataset CSV ou JSON est assez fiable pour etre reutilise.

Par ou commencer si les donnees semblent deja incorrectes ?

Commencez par le profiler de qualite pour une vue d ensemble, puis poursuivez avec la deduplication, le diff de tableurs, la revue d anomalies ou la validation relationnelle selon que le probleme ressemble surtout a des doublons, du drift, des valeurs manquantes ou des jointures cassees.

Outils de qualite des donnees, deduplication et detection d anomalies

Ce que ce dossier vous aide à accomplir

Outils dans ce dossier

Exemples liés à ce dossier

Continuer avec des dossiers voisins

Découvrez quand utiliser cet outil, ce qu'il prend en charge et comment les utilisateurs l'appliquent.

Aperçu

Quand l’utiliser

Fonctionnement

Cas d’usage

FAQ

Profileur de qualite de dataset

Déduplicateur CSV

Filtre CSV

Outil de diff CSV / Excel

Validateur de Clés Étrangères

Processeur de Limites de Données

Interpolateur de Données

Détecteur de Valeurs Aberrantes

Detecteur d anomalies de series temporelles

Générateur de Boîtes à Moustaches

Calculateur de score z

Calculateur de moyenne tronquee

Calculateur de moyenne winsorisee

Exemples CSV

Outils de nettoyage et de reorganisation CSV

Outils d analyse statistique, de tests et de distributions

Outils de schema de base de donnees, migration et flux SQL

Outils d’automatisation des données Excel et XLSX