Visualisation de la Perte d'Entropie Croisée

Exploration interactive de la fonction de perte la plus utilisée en apprentissage automatique

Formule d'Entropie Croisée Binaire

y : Étiquette vraie (0 ou 1)

ŷ : Probabilité prédite (0 à 1)

Démo Interactive

Étiquette Vraie (y) 1

Probabilité Prédite (ŷ) 0.70

0.01 0.99

Valeur de Perte

0.3567

Gradient

-0.4762

Confiance

70%

✓ 预测正确：模型预测为正类，真实标签也是正类

Courbe de Perte

y = 1 (L'étiquette vraie est positive)

y = 0 (L'étiquette vraie est négative)

Point Actuel

Idées Clés

Punition de Confiance

Lorsque les prédictions sont incorrectes avec une confiance élevée, la perte augmente dramatiquement. Cela encourage les modèles à être prudents lorsqu'ils sont incertains.

Échelle Logarithmique

En utilisant la fonction logarithmique, la perte approche 0 pour les prédictions correctes (probabilité près de 1) et l'infini pour les prédictions incorrectes (probabilité près de 0).

Interprétation du Gradient

Le gradient indique la direction du changement de perte. Un gradient négatif signifie qu'augmenter la probabilité de prédiction réduit la perte (quand y=1).

Formule d'Entropie Croisée Catégorielle

yᵢ : Vraie classe (encodage one-hot)

ŷᵢ : Probabilité prédite (sortie softmax)

Démo Softmax (Classification à 3 Classes)

Logits d'Entrée

Class A: z₁ 2.0

Class B: z₂ 1.0

Class C: z₃ -1.0

Température T 1.0

Probabilités de Sortie Softmax

Sélectionner la Vraie Classe

Perte d'Entropie Croisée

0.3265

Classe Prédite

Class A

Confiance

70.5%

Formule Softmax

Comparaison de Distribution de Probabilité

Idées Clés

Normalisation Softmax

Softmax convertit les logits en distribution de probabilité totalisant 1. La fonction exponentielle assure que toutes les sorties sont positives.

Effet de Différence de Logit

Même des valeurs de logit similaires peuvent produire des probabilités significativement différentes après softmax. Les différences relatives importent plus que les absolues.

Effet de Température

Le paramètre de température contrôle le 'profil' de la sortie : température élevée rend la distribution plus uniforme, température basse la rend plus profilée.

Comparaison des Fonctions de Perte

Comparer la perte d'entropie croisée avec l'erreur quadratique moyenne (MSE) dans les tâches de classification

Démo de Comparaison

Étiquette Vraie (y) 1

Probabilité Prédite (ŷ) 0.70

0.01 0.99

Perte d'Entropie Croisée

0.3567

梯度: -0.4762

Erreur Quadratique Moyenne (MSE)

0.0900

梯度: -0.6000

Comparaison des Courbes de Perte (y=1)

Avantages et Inconvénients

Caractéristique	Perte d'Entropie Croisée	Erreur Quadratique Moyenne (MSE)
Gradient pour Prédictions Incorrectes	Grand gradient, correction rapide	Petit gradient, convergence lente
Gradient pour Prédictions Correctes	Petit gradient, convergence stable	Gradient non nul, peut dépasser
Convexité	Convexe pour sigmoid/softmax	Globalement convexe
Interprétation Probabiliste	Estimation du maximum de vraisemblance	Méthode des moindres carrés
Meilleur Cas d'Usage	Tâches de classification	Tâches de régression

Contexte Théorique

Perspective de la Théorie de l'Information

L'entropie croisée mesure la différence entre deux distributions de probabilité. En classification, elle représente la 'distance' entre les distributions vraie et prédite. Minimiser l'entropie croisée équivaut à maximiser la vraisemblance.

Relation de Divergence KL

Entropie croisée = Divergence KL + Entropie. Puisque l'entropie de la distribution vraie est constante, minimiser l'entropie croisée équivaut à minimiser la divergence KL.

Pourquoi pas MSE pour la Classification ?

MSE suppose des erreurs distribuées gaussiennes, adapté pour la régression. Mais pour la classification, l'entropie croisée fournit des signaux de gradient plus forts, especially lorsque les prédictions sont incorrectes, permettant une correction plus rapide du modèle.

Conseils Pratiques

Stabilité Numérique

Le calcul direct de log(0) cause un underflow numérique. Les implémentations utilisent typiquement l'astuce log(sum(exp(x))) pour éviter ce problème.

Lissage des Étiquettes

Remplacer les étiquettes dures (0,1) par des étiquettes douces (ex., 0.1, 0.9) pour prévenir la surconfiance et améliorer la généralisation.

Déséquilibre de Classes

Pour des ensembles de données déséquilibrés, utiliser l'entropie croisée pondérée pour donner plus de poids aux classes minoritaires.

Choix de la Fonction d'Activation

Utiliser sigmoid pour la classification binaire, softmax pour multi-classes. Assurer que l'activation de la dernière correspond à la fonction de perte.