Visualización de Pérdida de Entropía Cruzada

Exploración interactiva de la función de pérdida más utilizada en aprendizaje automático

Fórmula de Entropía Cruzada Binaria

y: Etiqueta verdadera (0 o 1)
ŷ: Probabilidad predicha (0 a 1)

Demo Interactiva

0.01 0.99

Valor de Pérdida

0.3567

Gradiente

-0.4762

Confianza

70%
预测正确:模型预测为正类,真实标签也是正类

Curva de Pérdida

y = 1 (Etiqueta verdadera es positiva)
y = 0 (Etiqueta verdadera es negativa)
Punto Actual

Ideas Clave

Castigo de Confianza

Cuando las predicciones son incorrectas con alta confianza, la pérdida aumenta dramáticamente. Esto anima a los modelos a ser cautelosos cuando están inciertos.

Escala Logarítmica

Usando función logarítmica, la pérdida se aproxima a 0 para predicciones correctas (probabilidad cerca de 1) e infinito para predicciones incorrectas (probabilidad cerca de 0).

Interpretación del Gradiente

El gradiente indica la dirección del cambio de pérdida. Gradiente negativo significa aumentar la probabilidad de predicción reduce la pérdida (cuando y=1).

Fórmula de Entropía Cruzada Categórica

yᵢ: Clase verdadera (codificación one-hot)
ŷᵢ: Probabilidad predicha (salida softmax)

Demo de Softmax (Clasificación de 3 Clases)

Logits de Entrada

2.0
1.0
-1.0
1.0

Probabilidades de Salida Softmax

Seleccionar Clase Verdadera

Pérdida de Entropía Cruzada

0.3265

Clase Predicha

Class A

Confianza

70.5%

Fórmula Softmax

Comparación de Distribución de Probabilidad

Ideas Clave

Normalización Softmax

Softmax convierte logits en distribución de probabilidad que suma 1. La función exponencial asegura que todas las salidas sean positivas.

Efecto de Diferencia de Logit

Incluso valores de logit similares pueden producir probabilidades significativamente diferentes después de softmax. Las diferencias relativas importan más que las absolutas.

Efecto de Temperatura

El parámetro de temperatura controla el 'afilado' de la salida: temperatura alta hace la distribución más uniforme, temperatura baja la hace más afilada.

Comparación de Funciones de Pérdida

Comparar pérdida de entropía cruzada con error cuadrático medio (MSE) en tareas de clasificación

Demo de Comparación

0.01 0.99

Pérdida de Entropía Cruzada

0.3567
梯度: -0.4762

Error Cuadrático Medio (MSE)

0.0900
梯度: -0.6000

Comparación de Curvas de Pérdida (y=1)

Pros y Contras

Característica Pérdida de Entropía Cruzada Error Cuadrático Medio (MSE)
Gradiente para Predicciones Incorrectas Gradiente grande, corrección rápida Gradiente pequeño, convergencia lenta
Gradiente para Predicciones Correctas Gradiente pequeño, convergencia estable Gradiente no cero, puede sobrepasar
Convexidad Convexa para sigmoid/softmax Globalmente convexa
Interpretación Probabilística Estimación de máxima verosimilitud Método de mínimos cuadrados
Mejor Caso de Uso Tareas de clasificación Tareas de regresión

Antecedentes Teóricos

Perspectiva de Teoría de la Información

La entropía cruzada mide la diferencia entre dos distribuciones de probabilidad. En clasificación, representa la 'distancia' entre distribuciones verdadera y predicha. Minimizar la entropía cruzada equivale a maximizar la verosimilitud.

Relación de Divergencia KL

Entropía cruzada = Divergencia KL + Entropía. Dado que la entropía de la distribución verdadera es constante, minimizar la entropía cruzada equivale a minimizar la divergencia KL.

¿Por qué no MSE para Clasificación?

MSE asume errores distribuidos gaussianos, adecuado para regresión. Pero para clasificación, la entropía cruzada proporciona señales de gradiente más fuertes, especialmente cuando las predicciones son incorrectas, permitiendo una corrección más rápida del modelo.

Consejos Prácticos

Estabilidad Numérica

El cálculo directo de log(0) causa underflow numérico. Las implementaciones típicamente usan el truco log(sum(exp(x))) para evitar este problema.

Suavizado de Etiquetas

Reemplazar etiquetas duras (0,1) con etiquetas suaves (ej., 0.1, 0.9) para prevenir el exceso de confianza y mejorar la generalización.

Desequilibrio de Clases

Para conjuntos de datos desequilibrados, usar entropía cruzada ponderada para dar más peso a las clases minoritarias.

Elección de Función de Activación

Usar sigmoid para clasificación binaria, softmax para multiclas. Asegurar que la activación de la última capa coincida con la función de pérdida.