Interaktive Erkundung der am häufigsten verwendeten Verlustfunktion im maschinellen Lernen
Wenn Vorhersagen mit hoher Konfidenz falsch sind, steigt der Verlust dramatisch an. Dies ermutigt Modelle, vorsichtig zu sein, wenn sie unsicher sind.
Unter Verwendung der logarithmischen Funktion nähert sich der Verlust 0 für korrekte Vorhersagen (Wahrscheinlichkeit nahe 1) und Unendlich für falsche Vorhersagen (Wahrscheinlichkeit nahe 0).
Der Gradient zeigt die Richtung der Verluständerung an. Negativer Gradient bedeutet, dass das Erhöhen der Vorhersagewahrscheinlichkeit den Verlust reduziert (wenn y=1).
Softmax konvertiert Logits in eine Wahrscheinlichkeitsverteilung, die sich zu 1 summiert. Die Exponentialfunktion stellt sicher, dass alle Ausgaben positiv sind.
Selbst ähnliche Logit-Werte können nach Softmax signifikant unterschiedliche Wahrscheinlichkeiten erzeugen. Relative Unterschiede sind wichtiger als absolute.
Der Temperaturparameter kontrolliert die 'Schärfe' der Ausgabe: hohe Temperatur macht die Verteilung gleichmäßiger, niedrige Temperatur macht sie schärfer.
Vergleich von Kreuzentropie-Verlust mit mittlerem quadratischen Fehler (MSE) in Klassifikationsaufgaben
| Merkmal | Kreuzentropie-Verlust | Mittlerer Quadratischer Fehler (MSE) |
|---|---|---|
| Gradient für falsche Vorhersagen | Großer Gradient, schnelle Korrektur | Kleiner Gradient, langsame Konvergenz |
| Gradient für korrekte Vorhersagen | Kleiner Gradient, stabile Konvergenz | Nicht-Null-Gradient, kann überschießen |
| Konvexität | Konvex für Sigmoid/Softmax | Global konvex |
| Probabilistische Interpretation | Maximum-Likelihood-Schätzung | Kleinste-Quadrate-Methode |
| Bester Anwendungsfall | Klassifikationsaufgaben | Regressionsaufgaben |
Kreuzentropie misst den Unterschied zwischen zwei Wahrscheinlichkeitsverteilungen. Bei der Klassifikation repräsentiert sie den 'Abstand' zwischen wahrer und vorhergesagter Verteilung. Minimierung der Kreuzentropie ist äquivalent zur Maximierung der Likelihood-Funktion.
Kreuzentropie = KL-Divergenz + Entropie. Da die Entropie der wahren Verteilung konstant ist, ist die Minimierung der Kreuzentropie äquivalent zur Minimierung der KL-Divergenz.
MSE geht von normalverteilten Fehlern aus, geeignet für Regression. Aber für Klassifikation bietet Kreuzentropie stärkere Gradientensignale, besonders wenn Vorhersagen falsch sind, was eine schnellere Modellkorrektur ermöglicht.
Direkte Berechnung von log(0) verursacht numerischen Underflow. Implementierungen verwenden typischerweise den Trick log(sum(exp(x))), um dieses Problem zu vermeiden.
Harte Labels (0,1) durch weiche Labels (z.B. 0.1, 0.9) ersetzen, um Überkonfidenz zu verhindern und die Generalisierung zu verbessern.
Für unausgewogene Datensätze gewichtete Kreuzentropie verwenden, um Minderheitenklassen mehr Gewicht zu geben.
Sigmoid für binäre Klassifikation, Softmax für Multi-Klasse verwenden. Sicherstellen, dass die Aktivierung der letzten Schicht zur Verlustfunktion passt.