Collez un CSV dans "Entree du dataset" ou televersez un fichier CSV/JSON. Le profileur inspecte chaque colonne et fournit un apercu rapide de la qualite avant BI, ETL ou ML.
Ce qui est controle :
- Valeurs manquantes par colonne
- Lignes dupliquees ou combinaisons dupliquees selon les colonnes indiquees dans "Colonnes de doublons"
- Inferer le type de colonne : number, boolean, date, string ou empty
- Valeurs aberrantes numeriques via une regle de type IQR
- Derive de format dans les colonnes texte/date, comme des formats de date melanges ou des codes melanges au texte libre
Comment remplir les champs :
- Entree du dataset : collez directement du CSV pour un controle rapide
- Fichier de donnees : televersez CSV ou JSON si le dataset est plus grand ou deja enregistre
- Colonnes de doublons : facultatif ; indiquez des cles separees par des virgules comme id,email pour detecter les doublons par cle metier
- Lignes dechantillon : controle combien de lignes exemple apparaissent dans le rapport
Comment lire le rapport :
- Quality score est un resume rapide sur 100 ; plus il y a de manquants, doublons et signaux anormaux, plus le score baisse
- Missing indique combien de cellules vides/null ont ete trouvees dans la colonne
- Distinct indique combien de valeurs uniques apparaissent
- Anomalies met en avant les outliers numeriques
- Format drift met en avant les colonnes dont les valeurs semblent structurellement incoherentes
Perimetre actuel :
- CSV et JSON sont pris en charge
- Le JSON doit etre un tableau dobjets ou un objet contenant un tableau rows
- Le score est un signal operationnel rapide, pas une note formelle de gouvernance des donnees