Points clés
- Catégorie
- Données et tableaux
- Types d’entrée
- textarea, file, text, number
- Type de sortie
- html
- Couverture des échantillons
- 4
- API disponible
- Yes
Vue d’ensemble
Le Profileur de qualité de dataset est un outil d'analyse rapide qui inspecte vos fichiers CSV et JSON pour détecter les valeurs manquantes, les doublons, les valeurs aberrantes et les dérives de format. Avant d'importer vos données dans un outil de BI, un pipeline ETL ou un modèle de machine learning, obtenez un aperçu clair de la santé de votre jeu de données grâce à un score de qualité global et des métriques détaillées par colonne.
Quand l’utiliser
- •Avant d'intégrer un nouveau jeu de données dans un tableau de bord BI ou un pipeline ETL.
- •Lors de la réception d'un fichier client ou partenaire pour vérifier rapidement son intégrité structurelle.
- •Pour identifier les valeurs manquantes, les anomalies numériques et les doublons sur des clés métier spécifiques.
Comment ça marche
- •Collez directement vos données CSV dans le champ texte ou téléversez un fichier CSV ou JSON.
- •Spécifiez éventuellement des colonnes clés (comme 'id' ou 'email') pour cibler la détection des doublons métier.
- •Ajustez le nombre de lignes d'échantillon à afficher, puis lancez l'analyse.
- •Consultez le rapport HTML généré, qui inclut un score de qualité global, l'inférence des types et le détail des anomalies par colonne.
Cas d’usage
Exemples
1. Audit d'un fichier client avant import CRM
Data Analyst- Contexte
- Un analyste doit importer une liste de contacts dans le CRM, mais le fichier source provient de plusieurs formulaires web fusionnés.
- Problème
- Identifier rapidement les emails en double et évaluer la proportion de champs obligatoires manquants.
- Comment l’utiliser
- Téléversez le fichier JSON des contacts, définissez 'email' dans les colonnes de doublons et lancez le profilage.
- Configuration d’exemple
-
Fichier de données: contacts.json, Colonnes de doublons: email, Lignes d'échantillon: 10 - Résultat
- Le rapport affiche un score de qualité réduit, mettant en évidence les emails en double et indiquant exactement combien de cellules sont vides dans la colonne 'téléphone'.
2. Vérification de données transactionnelles
Ingénieur Data- Contexte
- Un pipeline de données extrait quotidiennement les ventes au format CSV pour alimenter un tableau de bord financier.
- Problème
- S'assurer qu'il n'y a pas de montants aberrants ou de formats de date incohérents avant l'ingestion dans l'entrepôt de données.
- Comment l’utiliser
- Collez un extrait représentatif du CSV dans l'entrée texte, laissez les paramètres par défaut et générez le profil.
- Configuration d’exemple
-
Entrée du dataset: id,name,email,amount,created_at..., Lignes d'échantillon: 8 - Résultat
- Le profil identifie une dérive de format dans la colonne 'created_at' (mélange de formats de dates) et signale un montant de 9999 comme anomalie numérique (outlier).
Tester avec des échantillons
json, csv, textHubs associés
FAQ
Quels formats de fichiers sont pris en charge ?
L'outil prend en charge les textes CSV collés directement, ainsi que les fichiers CSV et JSON téléversés. Pour le JSON, il doit s'agir d'un tableau d'objets ou d'un objet contenant un tableau 'rows'.
Comment fonctionne la détection des doublons ?
Par défaut, l'outil cherche les lignes entièrement identiques. Vous pouvez aussi renseigner des clés séparées par des virgules dans 'Colonnes de doublons' (ex: id,email) pour détecter les doublons basés uniquement sur ces identifiants.
Qu'est-ce que la dérive de format (format drift) ?
C'est un indicateur qui se déclenche lorsqu'une colonne contient des valeurs structurellement incohérentes, comme un mélange de différents formats de dates ou du texte libre au milieu de codes standardisés.
Comment est calculé le score de qualité (Quality score) ?
Il s'agit d'un indicateur opérationnel rapide sur 100. Le score diminue en fonction du nombre de cellules vides, de lignes dupliquées et de signaux anormaux détectés dans le jeu de données.
Que représentent les anomalies numériques ?
L'outil utilise une règle statistique basée sur l'écart interquartile (IQR) pour repérer et mettre en évidence les valeurs numériques aberrantes (outliers) dans vos colonnes de type nombre.