Exploração interativa da função de perda mais usada em aprendizado de máquina
Quando previsões estão erradas com alta confiança, a perda aumenta dramaticamente. Isso incentiva modelos a serem cautelosos quando incertos.
Usando função logarítmica, a perda se aproxima de 0 para previsões corretas (probabilidade perto de 1) e infinito para previsões erradas (probabilidade perto de 0).
O gradiente indica a direção da mudança de perda. Gradiente negativo significa aumentar a probabilidade de previsão reduz a perda (quando y=1).
Softmax converte logits em distribuição de probabilidade somando 1. Função exponencial garante que todas as saídas sejam positivas.
Mesmo valores de logit similares podem produzir probabilidades significativamente diferentes após softmax. Diferenças relativas importam mais que absolutas.
Parâmetro de temperatura controla o 'afilamento' da saída: temperatura alta torna a distribuição mais uniforme, temperatura baixa torna mais afiada.
Comparar perda de entropia cruzada com erro quadrático médio (MSE) em tarefas de classificação
| Característica | Perda de Entropia Cruzada | Erro Quadrático Médio (MSE) |
|---|---|---|
| Gradiente para Previsões Erradas | Gradiente grande, correção rápida | Gradiente pequeno, convergência lenta |
| Gradiente para Previsões Corretas | Gradiente pequeno, convergência estável | Gradiente não zero, pode ultrapassar |
| Convexidade | Convexa para sigmoid/softmax | Globalmente convexa |
| Interpretação Probabilística | Estimação de máxima verossimilhança | Método dos mínimos quadrados |
| Melhor Caso de Uso | Tarefas de classificação | Tarefas de regressão |
Entropia cruzada mede a diferença entre duas distribuições de probabilidade. Em classificação, ela representa a 'distância' entre distribuições verdadeira e prevista. Minimizar entropia cruzada é equivalente a maximizar a verossimilhança.
Entropia cruzada = Divergência KL + Entropia. Como a entropia da distribuição verdadeira é constante, minimizar entropia cruzada é equivalente a minimizar divergência KL.
MSE assume erros distribuídos gaussianos, adequado para regressão. Mas para classificação, entropia cruzada fornece sinais de gradiente mais fortes, especialmente quando previsões estão erradas, permitindo correção mais rápida do modelo.
Cálculo direto de log(0) causa underflow numérico. Implementações tipicamente usam o truque log(sum(exp(x))) para evitar este problema.
Substituir rótulos duros (0,1) por rótulos suaves (ex., 0.1, 0.9) para prevenir excesso de confiança e melhorar generalização.
Para conjuntos de dados desequilibrados, usar entropia cruzada ponderada para dar mais peso às classes minoritárias.
Usar sigmoid para classificação binária, softmax para multiclasses. Garantir que a ativação da última camada corresponda à função de perda.