Points clés
- Catégorie
- Data Processing
- Types d’entrée
- textarea, select, number, checkbox
- Type de sortie
- text
- Couverture des échantillons
- 4
- API disponible
- Yes
Vue d’ensemble
Le Processeur de Limites de Données est un outil spécialisé conçu pour identifier, valider et ajuster les valeurs minimales et maximales au sein de vos jeux de données numériques, garantissant ainsi une intégrité et une cohérence optimales pour vos analyses.
Quand l’utiliser
- •Pour nettoyer des données brutes contenant des valeurs aberrantes ou hors limites.
- •Pour normaliser des plages de données avant une analyse statistique ou un modèle de machine learning.
- •Pour appliquer des contraintes métier strictes sur des rapports financiers ou des relevés de capteurs.
Comment ça marche
- •Importez vos données au format CSV dans la zone de texte dédiée.
- •Définissez vos méthodes de détection (valeur absolue, centile ou écart type) pour les bornes inférieures et supérieures.
- •Choisissez une stratégie de traitement, telle que le découpage (clipping), la suppression ou le remplacement par la moyenne ou la médiane.
- •Exécutez le traitement pour obtenir vos données nettoyées, avec l'option d'inclure des statistiques de validation.
Cas d’usage
Exemples
1. Nettoyage de relevés de température
Ingénieur en données- Contexte
- Un fichier CSV contient des relevés de température avec des erreurs de lecture extrêmes.
- Problème
- Les valeurs aberrantes faussent la moyenne globale des relevés.
- Comment l’utiliser
- Utiliser la méthode 'Écart Type' avec 3 écarts types et la stratégie 'Découper' pour ramener les valeurs extrêmes dans une plage cohérente.
- Résultat
- Les températures extrêmes sont plafonnées aux bornes calculées, permettant une analyse statistique fiable sans perte de données.
2. Filtrage de scores de performance
Analyste RH- Contexte
- Une liste de scores d'évaluation des employés contient des valeurs hors échelle (ex: 150 sur 100).
- Problème
- Les scores invalides doivent être supprimés pour ne pas biaiser le calcul des primes.
- Comment l’utiliser
- Configurer une limite supérieure absolue à 100 et choisir la stratégie 'Supprimer' pour écarter les entrées erronées.
- Résultat
- Le dataset final ne contient que des scores valides, facilitant le calcul automatique des primes.
Tester avec des échantillons
csv, video, barcodeHubs associés
FAQ
Quelles méthodes de détection sont disponibles ?
Vous pouvez utiliser des valeurs absolues fixes, des centiles basés sur la distribution, des écarts types ou simplement les valeurs minimales et maximales réelles présentes dans vos données.
Que fait l'option 'Découper' (clip) ?
Cette option limite les valeurs dépassant vos bornes définies en les ramenant automatiquement à la valeur limite la plus proche.
Puis-je traiter uniquement certaines colonnes ?
Oui, vous pouvez spécifier les colonnes cibles dans le champ dédié. Si vous le laissez vide, l'outil détectera automatiquement toutes les colonnes numériques.
L'outil peut-il marquer les valeurs modifiées ?
Absolument, en activant l'option 'Marquer les valeurs limites', l'outil ajoutera des colonnes supplémentaires pour identifier précisément les lignes ayant fait l'objet d'une correction.
Est-il possible de supprimer les lignes non conformes ?
Oui, en sélectionnant la stratégie 'Supprimer', toutes les lignes contenant des valeurs en dehors des limites définies seront automatiquement exclues du résultat final.