Points clés
- Catégorie
- Data Processing
- Types d’entrée
- textarea, select, checkbox
- Type de sortie
- text
- Couverture des échantillons
- 4
- API disponible
- Yes
Vue d’ensemble
Le Limiteur de Plage de Données est un outil essentiel pour normaliser vos jeux de données numériques en appliquant des contraintes strictes. Que vous souhaitiez écrêter les valeurs extrêmes, supprimer les lignes non conformes ou simplement identifier les données hors limites, cet outil garantit la fiabilité et la cohérence de vos analyses.
Quand l’utiliser
- •Nettoyer des données de capteurs contenant des mesures aberrantes ou erronées.
- •Préparer des jeux de données pour des modèles de machine learning nécessitant des plages de valeurs normalisées.
- •Appliquer des règles métier strictes sur des rapports financiers ou des inventaires.
Comment ça marche
- •Importez vos données au format CSV dans l'outil.
- •Définissez les plages minimales et maximales pour chaque colonne via la configuration JSON.
- •Choisissez votre stratégie de traitement : couper les valeurs, filtrer les lignes ou marquer les modifications.
- •Générez le résultat final avec, si besoin, un rapport statistique détaillé sur les corrections effectuées.
Cas d’usage
Exemples
1. Nettoyage de données de capteurs de température
Ingénieur données- Contexte
- Un capteur de température envoie parfois des valeurs aberrantes (ex: 200°C) dues à des interférences électriques.
- Problème
- Supprimer les valeurs physiquement impossibles pour ne garder que les mesures cohérentes.
- Comment l’utiliser
- Charger le CSV, définir une plage de -20 à 50°C pour la colonne 'temperature' et choisir la stratégie 'Filter'.
- Configuration d’exemple
-
{"temperature": {"min": -20, "max": 50}} - Résultat
- Toutes les lignes contenant des températures hors de la plage réaliste sont automatiquement supprimées du dataset.
2. Normalisation des scores de performance
Analyste RH- Contexte
- Les scores de performance sont saisis sur une échelle de 0 à 100, mais certaines erreurs de saisie dépassent ces bornes.
- Problème
- Forcer les scores saisis par erreur au-dessus de 100 à être ramenés à 100.
- Comment l’utiliser
- Utiliser la stratégie 'Clip' avec une plage de 0 à 100 pour la colonne 'score'.
- Configuration d’exemple
-
{"score": {"min": 0, "max": 100}} - Résultat
- Les valeurs supérieures à 100 sont automatiquement ramenées à 100, garantissant l'intégrité des calculs de moyenne.
Tester avec des échantillons
json, csv, videoHubs associés
FAQ
Quelles stratégies de traitement sont disponibles ?
Vous pouvez choisir entre 'Clip' pour ramener les valeurs aux limites, 'Filter' pour supprimer les lignes invalides, ou 'Mark' pour conserver les données tout en identifiant les modifications.
Puis-je traiter plusieurs colonnes simultanément ?
Oui, vous pouvez spécifier des plages différentes pour chaque colonne dans la configuration JSON ou laisser l'outil détecter automatiquement les colonnes numériques.
L'outil peut-il conserver mes données originales ?
Absolument, en activant l'option 'Préserver les colonnes originales', l'outil créera des colonnes suffixées par '_original' pour comparer les changements.
Comment savoir quelles valeurs ont été modifiées ?
Activez l'option 'Marquer les valeurs modifiées' pour ajouter des indicateurs visuels ou des colonnes de flag sur les données ayant subi une correction.
L'outil génère-t-il un rapport d'erreurs ?
Oui, en cochant 'Inclure les statistiques', vous obtiendrez un résumé détaillé des modifications apportées et du nombre de valeurs traitées.