Exploration interactive de la fonction de perte la plus utilisée en apprentissage automatique
Lorsque les prédictions sont incorrectes avec une confiance élevée, la perte augmente dramatiquement. Cela encourage les modèles à être prudents lorsqu'ils sont incertains.
En utilisant la fonction logarithmique, la perte approche 0 pour les prédictions correctes (probabilité près de 1) et l'infini pour les prédictions incorrectes (probabilité près de 0).
Le gradient indique la direction du changement de perte. Un gradient négatif signifie qu'augmenter la probabilité de prédiction réduit la perte (quand y=1).
Softmax convertit les logits en distribution de probabilité totalisant 1. La fonction exponentielle assure que toutes les sorties sont positives.
Même des valeurs de logit similaires peuvent produire des probabilités significativement différentes après softmax. Les différences relatives importent plus que les absolues.
Le paramètre de température contrôle le 'profil' de la sortie : température élevée rend la distribution plus uniforme, température basse la rend plus profilée.
Comparer la perte d'entropie croisée avec l'erreur quadratique moyenne (MSE) dans les tâches de classification
| Caractéristique | Perte d'Entropie Croisée | Erreur Quadratique Moyenne (MSE) |
|---|---|---|
| Gradient pour Prédictions Incorrectes | Grand gradient, correction rapide | Petit gradient, convergence lente |
| Gradient pour Prédictions Correctes | Petit gradient, convergence stable | Gradient non nul, peut dépasser |
| Convexité | Convexe pour sigmoid/softmax | Globalement convexe |
| Interprétation Probabiliste | Estimation du maximum de vraisemblance | Méthode des moindres carrés |
| Meilleur Cas d'Usage | Tâches de classification | Tâches de régression |
L'entropie croisée mesure la différence entre deux distributions de probabilité. En classification, elle représente la 'distance' entre les distributions vraie et prédite. Minimiser l'entropie croisée équivaut à maximiser la vraisemblance.
Entropie croisée = Divergence KL + Entropie. Puisque l'entropie de la distribution vraie est constante, minimiser l'entropie croisée équivaut à minimiser la divergence KL.
MSE suppose des erreurs distribuées gaussiennes, adapté pour la régression. Mais pour la classification, l'entropie croisée fournit des signaux de gradient plus forts, especially lorsque les prédictions sont incorrectes, permettant une correction plus rapide du modèle.
Le calcul direct de log(0) cause un underflow numérique. Les implémentations utilisent typiquement l'astuce log(sum(exp(x))) pour éviter ce problème.
Remplacer les étiquettes dures (0,1) par des étiquettes douces (ex., 0.1, 0.9) pour prévenir la surconfiance et améliorer la généralisation.
Pour des ensembles de données déséquilibrés, utiliser l'entropie croisée pondérée pour donner plus de poids aux classes minoritaires.
Utiliser sigmoid pour la classification binaire, softmax pour multi-classes. Assurer que l'activation de la dernière correspond à la fonction de perte.