Profileur de qualite de dataset

Profile des jeux CSV ou JSON pour detecter manquants, doublons, derive de format, types et outliers.

Collez un CSV dans "Entree du dataset" ou televersez un fichier CSV/JSON. Le profileur inspecte chaque colonne et fournit un apercu rapide de la qualite avant BI, ETL ou ML.

Ce qui est controle :

  • Valeurs manquantes par colonne
  • Lignes dupliquees ou combinaisons dupliquees selon les colonnes indiquees dans "Colonnes de doublons"
  • Inferer le type de colonne : number, boolean, date, string ou empty
  • Valeurs aberrantes numeriques via une regle de type IQR
  • Derive de format dans les colonnes texte/date, comme des formats de date melanges ou des codes melanges au texte libre

Comment remplir les champs :

  • Entree du dataset : collez directement du CSV pour un controle rapide
  • Fichier de donnees : televersez CSV ou JSON si le dataset est plus grand ou deja enregistre
  • Colonnes de doublons : facultatif ; indiquez des cles separees par des virgules comme id,email pour detecter les doublons par cle metier
  • Lignes dechantillon : controle combien de lignes exemple apparaissent dans le rapport

Comment lire le rapport :

  • Quality score est un resume rapide sur 100 ; plus il y a de manquants, doublons et signaux anormaux, plus le score baisse
  • Missing indique combien de cellules vides/null ont ete trouvees dans la colonne
  • Distinct indique combien de valeurs uniques apparaissent
  • Anomalies met en avant les outliers numeriques
  • Format drift met en avant les colonnes dont les valeurs semblent structurellement incoherentes

Perimetre actuel :

  • CSV et JSON sont pris en charge
  • Le JSON doit etre un tableau dobjets ou un objet contenant un tableau rows
  • Le score est un signal operationnel rapide, pas une note formelle de gouvernance des donnees

Exemples de résultats

1 Exemples

Profiler un CSV transactionnel avant la BI

Repere manquants, valeurs aberrantes, doublons et derive de type avant les tableaux de bord.

Dataset quality report
Voir paramètres d'entrée
{ "datasetInput": "id,name,email,amount,created_at\n1,Alice,[email protected],120,2026-03-01\n2,Bob,,85,2026-03-02\n2,Bob,[email protected],85,03/02/2026\n3,Charlie,[email protected],9999,2026-03-03", "datasetFile": "", "duplicateKeyColumns": "id", "sampleRows": 8 }

Click to upload file or drag and drop file here

Maximum file size: 15MB Supported formats: text/csv, application/json, text/plain

Points clés

Catégorie
Données et tableaux
Types d’entrée
textarea, file, text, number
Type de sortie
html
Couverture des échantillons
4
API disponible
Yes

Vue d’ensemble

Le Profileur de qualité de dataset est un outil d'analyse rapide qui inspecte vos fichiers CSV et JSON pour détecter les valeurs manquantes, les doublons, les valeurs aberrantes et les dérives de format. Avant d'importer vos données dans un outil de BI, un pipeline ETL ou un modèle de machine learning, obtenez un aperçu clair de la santé de votre jeu de données grâce à un score de qualité global et des métriques détaillées par colonne.

Quand l’utiliser

  • Avant d'intégrer un nouveau jeu de données dans un tableau de bord BI ou un pipeline ETL.
  • Lors de la réception d'un fichier client ou partenaire pour vérifier rapidement son intégrité structurelle.
  • Pour identifier les valeurs manquantes, les anomalies numériques et les doublons sur des clés métier spécifiques.

Comment ça marche

  • Collez directement vos données CSV dans le champ texte ou téléversez un fichier CSV ou JSON.
  • Spécifiez éventuellement des colonnes clés (comme 'id' ou 'email') pour cibler la détection des doublons métier.
  • Ajustez le nombre de lignes d'échantillon à afficher, puis lancez l'analyse.
  • Consultez le rapport HTML généré, qui inclut un score de qualité global, l'inférence des types et le détail des anomalies par colonne.

Cas d’usage

Nettoyage de données e-commerce pour s'assurer qu'aucun identifiant de transaction ou email client n'est dupliqué.
Audit rapide d'un export CRM avant de lancer une campagne marketing pour évaluer le taux de champs vides.
Validation de fichiers de capteurs IoT pour détecter les valeurs numériques aberrantes dues à des erreurs de mesure.

Exemples

1. Audit d'un fichier client avant import CRM

Data Analyst
Contexte
Un analyste doit importer une liste de contacts dans le CRM, mais le fichier source provient de plusieurs formulaires web fusionnés.
Problème
Identifier rapidement les emails en double et évaluer la proportion de champs obligatoires manquants.
Comment l’utiliser
Téléversez le fichier JSON des contacts, définissez 'email' dans les colonnes de doublons et lancez le profilage.
Configuration d’exemple
Fichier de données: contacts.json, Colonnes de doublons: email, Lignes d'échantillon: 10
Résultat
Le rapport affiche un score de qualité réduit, mettant en évidence les emails en double et indiquant exactement combien de cellules sont vides dans la colonne 'téléphone'.

2. Vérification de données transactionnelles

Ingénieur Data
Contexte
Un pipeline de données extrait quotidiennement les ventes au format CSV pour alimenter un tableau de bord financier.
Problème
S'assurer qu'il n'y a pas de montants aberrants ou de formats de date incohérents avant l'ingestion dans l'entrepôt de données.
Comment l’utiliser
Collez un extrait représentatif du CSV dans l'entrée texte, laissez les paramètres par défaut et générez le profil.
Configuration d’exemple
Entrée du dataset: id,name,email,amount,created_at..., Lignes d'échantillon: 8
Résultat
Le profil identifie une dérive de format dans la colonne 'created_at' (mélange de formats de dates) et signale un montant de 9999 comme anomalie numérique (outlier).

Tester avec des échantillons

json, csv, text

Hubs associés

FAQ

Quels formats de fichiers sont pris en charge ?

L'outil prend en charge les textes CSV collés directement, ainsi que les fichiers CSV et JSON téléversés. Pour le JSON, il doit s'agir d'un tableau d'objets ou d'un objet contenant un tableau 'rows'.

Comment fonctionne la détection des doublons ?

Par défaut, l'outil cherche les lignes entièrement identiques. Vous pouvez aussi renseigner des clés séparées par des virgules dans 'Colonnes de doublons' (ex: id,email) pour détecter les doublons basés uniquement sur ces identifiants.

Qu'est-ce que la dérive de format (format drift) ?

C'est un indicateur qui se déclenche lorsqu'une colonne contient des valeurs structurellement incohérentes, comme un mélange de différents formats de dates ou du texte libre au milieu de codes standardisés.

Comment est calculé le score de qualité (Quality score) ?

Il s'agit d'un indicateur opérationnel rapide sur 100. Le score diminue en fonction du nombre de cellules vides, de lignes dupliquées et de signaux anormaux détectés dans le jeu de données.

Que représentent les anomalies numériques ?

L'outil utilise une règle statistique basée sur l'écart interquartile (IQR) pour repérer et mettre en évidence les valeurs numériques aberrantes (outliers) dans vos colonnes de type nombre.

Documentation de l'API

Point de terminaison de la requête

POST /fr/api/tools/dataset-quality-profiler

Paramètres de la requête

Nom du paramètre Type Requis Description
datasetInput textarea Non -
datasetFile file (Téléchargement requis) Non -
duplicateKeyColumns text Non -
sampleRows number Non -

Les paramètres de type fichier doivent être téléchargés d'abord via POST /upload/dataset-quality-profiler pour obtenir filePath, puis filePath doit être passé au champ de fichier correspondant.

Format de réponse

{
  "result": "
Processed HTML content
", "error": "Error message (optional)", "message": "Notification message (optional)", "metadata": { "key": "value" } }
HTML: HTML

Documentation de MCP

Ajoutez cet outil à votre configuration de serveur MCP:

{
  "mcpServers": {
    "elysiatools-dataset-quality-profiler": {
      "name": "dataset-quality-profiler",
      "description": "Profile des jeux CSV ou JSON pour detecter manquants, doublons, derive de format, types et outliers.",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=dataset-quality-profiler",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

Vous pouvez chaîner plusieurs outils, par ex.: `https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`, max 20 outils.

Prend en charge les liens de fichiers URL ou la codification Base64 pour les paramètres de fichier.

Si vous rencontrez des problèmes, veuillez nous contacter à [email protected]