Kreuzentropie-Verlust Visualisierung

Interaktive Erkundung der am häufigsten verwendeten Verlustfunktion im maschinellen Lernen

Binäre Kreuzentropie-Formel

y: Wahres Label (0 oder 1)
ŷ: Vorhergesagte Wahrscheinlichkeit (0 bis 1)

Interaktive Demo

0.01 0.99

Verlustwert

0.3567

Gradient

-0.4762

Konfidenz

70%
预测正确:模型预测为正类,真实标签也是正类

Verlustkurve

y = 1 (Wahres Label ist positiv)
y = 0 (Wahres Label ist negativ)
Aktueller Punkt

Wichtige Erkenntnisse

Vertrauensstrafe

Wenn Vorhersagen mit hoher Konfidenz falsch sind, steigt der Verlust dramatisch an. Dies ermutigt Modelle, vorsichtig zu sein, wenn sie unsicher sind.

Logarithmische Skala

Unter Verwendung der logarithmischen Funktion nähert sich der Verlust 0 für korrekte Vorhersagen (Wahrscheinlichkeit nahe 1) und Unendlich für falsche Vorhersagen (Wahrscheinlichkeit nahe 0).

Gradienteninterpretation

Der Gradient zeigt die Richtung der Verluständerung an. Negativer Gradient bedeutet, dass das Erhöhen der Vorhersagewahrscheinlichkeit den Verlust reduziert (wenn y=1).

Kategorische Kreuzentropie-Formel

yᵢ: Wahre Klasse (One-Hot-kodiert)
ŷᵢ: Vorhergesagte Wahrscheinlichkeit (Softmax-Ausgabe)

Softmax Demo (3-Klassen-Klassifikation)

Eingabe-Logits

2.0
1.0
-1.0
1.0

Softmax-Ausgabewahrscheinlichkeiten

Wahre Klasse auswählen

Kreuzentropie-Verlust

0.3265

Vorhergesagte Klasse

Class A

Konfidenz

70.5%

Softmax-Formel

Wahrscheinlichkeitsverteilungsvergleich

Wichtige Erkenntnisse

Softmax-Normalisierung

Softmax konvertiert Logits in eine Wahrscheinlichkeitsverteilung, die sich zu 1 summiert. Die Exponentialfunktion stellt sicher, dass alle Ausgaben positiv sind.

Logit-Differenzeffekt

Selbst ähnliche Logit-Werte können nach Softmax signifikant unterschiedliche Wahrscheinlichkeiten erzeugen. Relative Unterschiede sind wichtiger als absolute.

Temperatureffekt

Der Temperaturparameter kontrolliert die 'Schärfe' der Ausgabe: hohe Temperatur macht die Verteilung gleichmäßiger, niedrige Temperatur macht sie schärfer.

Verlustfunktionsvergleich

Vergleich von Kreuzentropie-Verlust mit mittlerem quadratischen Fehler (MSE) in Klassifikationsaufgaben

Vergleichs-Demo

0.01 0.99

Kreuzentropie-Verlust

0.3567
梯度: -0.4762

Mittlerer Quadratischer Fehler (MSE)

0.0900
梯度: -0.6000

Verlustkurvenvergleich (y=1)

Vor- und Nachteile

Merkmal Kreuzentropie-Verlust Mittlerer Quadratischer Fehler (MSE)
Gradient für falsche Vorhersagen Großer Gradient, schnelle Korrektur Kleiner Gradient, langsame Konvergenz
Gradient für korrekte Vorhersagen Kleiner Gradient, stabile Konvergenz Nicht-Null-Gradient, kann überschießen
Konvexität Konvex für Sigmoid/Softmax Global konvex
Probabilistische Interpretation Maximum-Likelihood-Schätzung Kleinste-Quadrate-Methode
Bester Anwendungsfall Klassifikationsaufgaben Regressionsaufgaben

Theoretischer Hintergrund

Informationstheoretische Perspektive

Kreuzentropie misst den Unterschied zwischen zwei Wahrscheinlichkeitsverteilungen. Bei der Klassifikation repräsentiert sie den 'Abstand' zwischen wahrer und vorhergesagter Verteilung. Minimierung der Kreuzentropie ist äquivalent zur Maximierung der Likelihood-Funktion.

KL-Divergenz-Beziehung

Kreuzentropie = KL-Divergenz + Entropie. Da die Entropie der wahren Verteilung konstant ist, ist die Minimierung der Kreuzentropie äquivalent zur Minimierung der KL-Divergenz.

Warum nicht MSE für Klassifikation?

MSE geht von normalverteilten Fehlern aus, geeignet für Regression. Aber für Klassifikation bietet Kreuzentropie stärkere Gradientensignale, besonders wenn Vorhersagen falsch sind, was eine schnellere Modellkorrektur ermöglicht.

Praktische Tipps

Numerische Stabilität

Direkte Berechnung von log(0) verursacht numerischen Underflow. Implementierungen verwenden typischerweise den Trick log(sum(exp(x))), um dieses Problem zu vermeiden.

Label-Glättung

Harte Labels (0,1) durch weiche Labels (z.B. 0.1, 0.9) ersetzen, um Überkonfidenz zu verhindern und die Generalisierung zu verbessern.

Klassenungleichgewicht

Für unausgewogene Datensätze gewichtete Kreuzentropie verwenden, um Minderheitenklassen mehr Gewicht zu geben.

Aktivierungsfunktionswahl

Sigmoid für binäre Klassifikation, Softmax für Multi-Klasse verwenden. Sicherstellen, dass die Aktivierung der letzten Schicht zur Verlustfunktion passt.