Visualización de Pérdida de Entropía Cruzada

Exploración interactiva de la función de pérdida más utilizada en aprendizaje automático

Fórmula de Entropía Cruzada Binaria

y: Etiqueta verdadera (0 o 1)

ŷ: Probabilidad predicha (0 a 1)

Demo Interactiva

Etiqueta Verdadera (y) 1

Probabilidad Predicha (ŷ) 0.70

0.01 0.99

Valor de Pérdida

0.3567

Gradiente

-0.4762

Confianza

70%

✓ 预测正确：模型预测为正类，真实标签也是正类

Curva de Pérdida

y = 1 (Etiqueta verdadera es positiva)

y = 0 (Etiqueta verdadera es negativa)

Punto Actual

Ideas Clave

Castigo de Confianza

Cuando las predicciones son incorrectas con alta confianza, la pérdida aumenta dramáticamente. Esto anima a los modelos a ser cautelosos cuando están inciertos.

Escala Logarítmica

Usando función logarítmica, la pérdida se aproxima a 0 para predicciones correctas (probabilidad cerca de 1) e infinito para predicciones incorrectas (probabilidad cerca de 0).

Interpretación del Gradiente

El gradiente indica la dirección del cambio de pérdida. Gradiente negativo significa aumentar la probabilidad de predicción reduce la pérdida (cuando y=1).

Fórmula de Entropía Cruzada Categórica

yᵢ: Clase verdadera (codificación one-hot)

ŷᵢ: Probabilidad predicha (salida softmax)

Demo de Softmax (Clasificación de 3 Clases)

Logits de Entrada

Class A: z₁ 2.0

Class B: z₂ 1.0

Class C: z₃ -1.0

Temperatura T 1.0

Probabilidades de Salida Softmax

Seleccionar Clase Verdadera

Pérdida de Entropía Cruzada

0.3265

Clase Predicha

Class A

Confianza

70.5%

Fórmula Softmax

Comparación de Distribución de Probabilidad

Ideas Clave

Normalización Softmax

Softmax convierte logits en distribución de probabilidad que suma 1. La función exponencial asegura que todas las salidas sean positivas.

Efecto de Diferencia de Logit

Incluso valores de logit similares pueden producir probabilidades significativamente diferentes después de softmax. Las diferencias relativas importan más que las absolutas.

Efecto de Temperatura

El parámetro de temperatura controla el 'afilado' de la salida: temperatura alta hace la distribución más uniforme, temperatura baja la hace más afilada.

Comparación de Funciones de Pérdida

Comparar pérdida de entropía cruzada con error cuadrático medio (MSE) en tareas de clasificación

Demo de Comparación

Etiqueta Verdadera (y) 1

Probabilidad Predicha (ŷ) 0.70

0.01 0.99

Pérdida de Entropía Cruzada

0.3567

梯度: -0.4762

Error Cuadrático Medio (MSE)

0.0900

梯度: -0.6000

Comparación de Curvas de Pérdida (y=1)

Pros y Contras

Característica	Pérdida de Entropía Cruzada	Error Cuadrático Medio (MSE)
Gradiente para Predicciones Incorrectas	Gradiente grande, corrección rápida	Gradiente pequeño, convergencia lenta
Gradiente para Predicciones Correctas	Gradiente pequeño, convergencia estable	Gradiente no cero, puede sobrepasar
Convexidad	Convexa para sigmoid/softmax	Globalmente convexa
Interpretación Probabilística	Estimación de máxima verosimilitud	Método de mínimos cuadrados
Mejor Caso de Uso	Tareas de clasificación	Tareas de regresión

Antecedentes Teóricos

Perspectiva de Teoría de la Información

La entropía cruzada mide la diferencia entre dos distribuciones de probabilidad. En clasificación, representa la 'distancia' entre distribuciones verdadera y predicha. Minimizar la entropía cruzada equivale a maximizar la verosimilitud.

Relación de Divergencia KL

Entropía cruzada = Divergencia KL + Entropía. Dado que la entropía de la distribución verdadera es constante, minimizar la entropía cruzada equivale a minimizar la divergencia KL.

¿Por qué no MSE para Clasificación?

MSE asume errores distribuidos gaussianos, adecuado para regresión. Pero para clasificación, la entropía cruzada proporciona señales de gradiente más fuertes, especialmente cuando las predicciones son incorrectas, permitiendo una corrección más rápida del modelo.

Consejos Prácticos

Estabilidad Numérica

El cálculo directo de log(0) causa underflow numérico. Las implementaciones típicamente usan el truco log(sum(exp(x))) para evitar este problema.

Suavizado de Etiquetas

Reemplazar etiquetas duras (0,1) con etiquetas suaves (ej., 0.1, 0.9) para prevenir el exceso de confianza y mejorar la generalización.

Desequilibrio de Clases

Para conjuntos de datos desequilibrados, usar entropía cruzada ponderada para dar más peso a las clases minoritarias.

Elección de Función de Activación

Usar sigmoid para clasificación binaria, softmax para multiclas. Asegurar que la activación de la última capa coincida con la función de pérdida.