Exploración interactiva de la función de pérdida más utilizada en aprendizaje automático
Cuando las predicciones son incorrectas con alta confianza, la pérdida aumenta dramáticamente. Esto anima a los modelos a ser cautelosos cuando están inciertos.
Usando función logarítmica, la pérdida se aproxima a 0 para predicciones correctas (probabilidad cerca de 1) e infinito para predicciones incorrectas (probabilidad cerca de 0).
El gradiente indica la dirección del cambio de pérdida. Gradiente negativo significa aumentar la probabilidad de predicción reduce la pérdida (cuando y=1).
Softmax convierte logits en distribución de probabilidad que suma 1. La función exponencial asegura que todas las salidas sean positivas.
Incluso valores de logit similares pueden producir probabilidades significativamente diferentes después de softmax. Las diferencias relativas importan más que las absolutas.
El parámetro de temperatura controla el 'afilado' de la salida: temperatura alta hace la distribución más uniforme, temperatura baja la hace más afilada.
Comparar pérdida de entropía cruzada con error cuadrático medio (MSE) en tareas de clasificación
| Característica | Pérdida de Entropía Cruzada | Error Cuadrático Medio (MSE) |
|---|---|---|
| Gradiente para Predicciones Incorrectas | Gradiente grande, corrección rápida | Gradiente pequeño, convergencia lenta |
| Gradiente para Predicciones Correctas | Gradiente pequeño, convergencia estable | Gradiente no cero, puede sobrepasar |
| Convexidad | Convexa para sigmoid/softmax | Globalmente convexa |
| Interpretación Probabilística | Estimación de máxima verosimilitud | Método de mínimos cuadrados |
| Mejor Caso de Uso | Tareas de clasificación | Tareas de regresión |
La entropía cruzada mide la diferencia entre dos distribuciones de probabilidad. En clasificación, representa la 'distancia' entre distribuciones verdadera y predicha. Minimizar la entropía cruzada equivale a maximizar la verosimilitud.
Entropía cruzada = Divergencia KL + Entropía. Dado que la entropía de la distribución verdadera es constante, minimizar la entropía cruzada equivale a minimizar la divergencia KL.
MSE asume errores distribuidos gaussianos, adecuado para regresión. Pero para clasificación, la entropía cruzada proporciona señales de gradiente más fuertes, especialmente cuando las predicciones son incorrectas, permitiendo una corrección más rápida del modelo.
El cálculo directo de log(0) causa underflow numérico. Las implementaciones típicamente usan el truco log(sum(exp(x))) para evitar este problema.
Reemplazar etiquetas duras (0,1) con etiquetas suaves (ej., 0.1, 0.9) para prevenir el exceso de confianza y mejorar la generalización.
Para conjuntos de datos desequilibrados, usar entropía cruzada ponderada para dar más peso a las clases minoritarias.
Usar sigmoid para clasificación binaria, softmax para multiclas. Asegurar que la activación de la última capa coincida con la función de pérdida.