Quels formats de fichiers sont pris en charge ?

L'outil prend en charge les textes CSV collés directement, ainsi que les fichiers CSV et JSON téléversés. Pour le JSON, il doit s'agir d'un tableau d'objets ou d'un objet contenant un tableau 'rows'.

Comment fonctionne la détection des doublons ?

Par défaut, l'outil cherche les lignes entièrement identiques. Vous pouvez aussi renseigner des clés séparées par des virgules dans 'Colonnes de doublons' (ex: id,email) pour détecter les doublons basés uniquement sur ces identifiants.

Qu'est-ce que la dérive de format (format drift) ?

C'est un indicateur qui se déclenche lorsqu'une colonne contient des valeurs structurellement incohérentes, comme un mélange de différents formats de dates ou du texte libre au milieu de codes standardisés.

Comment est calculé le score de qualité (Quality score) ?

Il s'agit d'un indicateur opérationnel rapide sur 100. Le score diminue en fonction du nombre de cellules vides, de lignes dupliquées et de signaux anormaux détectés dans le jeu de données.

Que représentent les anomalies numériques ?

L'outil utilise une règle statistique basée sur l'écart interquartile (IQR) pour repérer et mettre en évidence les valeurs numériques aberrantes (outliers) dans vos colonnes de type nombre.

Elysia Tools

Navigation mobile

Data Analysis

Profileur de qualite de dataset

Profile des jeux CSV ou JSON pour detecter manquants, doublons, derive de format, types et outliers.

Détails

Ce que cet outil vous aide à faire

Collez un CSV dans "Entree du dataset" ou televersez un fichier CSV/JSON. Le profileur inspecte chaque colonne et fournit un apercu rapide de la qualite avant BI, ETL ou ML.

Ce qui est controle :

Valeurs manquantes par colonne
Lignes dupliquees ou combinaisons dupliquees selon les colonnes indiquees dans "Colonnes de doublons"
Inferer le type de colonne : number, boolean, date, string ou empty
Valeurs aberrantes numeriques via une regle de type IQR
Derive de format dans les colonnes texte/date, comme des formats de date melanges ou des codes melanges au texte libre

Comment remplir les champs :

Entree du dataset : collez directement du CSV pour un controle rapide
Fichier de donnees : televersez CSV ou JSON si le dataset est plus grand ou deja enregistre
Colonnes de doublons : facultatif ; indiquez des cles separees par des virgules comme id,email pour detecter les doublons par cle metier
Lignes dechantillon : controle combien de lignes exemple apparaissent dans le rapport

Comment lire le rapport :

Quality score est un resume rapide sur 100 ; plus il y a de manquants, doublons et signaux anormaux, plus le score baisse
Missing indique combien de cellules vides/null ont ete trouvees dans la colonne
Distinct indique combien de valeurs uniques apparaissent
Anomalies met en avant les outliers numeriques
Format drift met en avant les colonnes dont les valeurs semblent structurellement incoherentes

Perimetre actuel :

CSV et JSON sont pris en charge
Le JSON doit etre un tableau dobjets ou un objet contenant un tableau rows
Le score est un signal operationnel rapide, pas une note formelle de gouvernance des donnees

Exécution

Exécuter cet outil

Remplissez le formulaire, lancez l’outil et consultez le résultat au même endroit.

Résultat

Prêt à exécuter

Après exécution, les fichiers, textes, données structurées ou sorties en flux apparaîtront ici.

Exemples

Exemples adaptés à cet outil

Associé

Profileur de qualite de dataset

Ce que cet outil vous aide à faire

Exécuter cet outil

Exécutions d’exemple préparées

Entrées

Résultat

Exemples adaptés à cet outil

Continuer avec des outils et dossiers associés

Exécutions d’exemple préparées

Entrées

Résultat

Découvrez quand utiliser cet outil, ce qu'il prend en charge et comment les utilisateurs l'appliquent.

Points clés

Aperçu

Quand l’utiliser

Fonctionnement

Cas d’usage

Exemples

1. Audit d'un fichier client avant import CRM

2. Vérification de données transactionnelles

FAQ

Exemples CSV

Exemples Python

Exemples JWT

Exemples Apache Arrow

Analyseur de logs structures

Detecteur de desequilibre et reechantillonneur

Detecteur d anomalies de series temporelles

Analyseur de prevision et de saisonnalite

Outils de formatage, de diff et de normalisation JSON

Outils de qualite des donnees, deduplication et detection d anomalies

Outils de masquage, de surlignage et de mise en forme de texte

Outils d interchange JSON et de traduction de formats