Visualização de Perda de Entropia Cruzada

Exploração interativa da função de perda mais usada em aprendizado de máquina

Fórmula de Entropia Cruzada Binária

y: Rótulo verdadeiro (0 ou 1)

ŷ: Probabilidade prevista (0 a 1)

Demo Interativa

Rótulo Verdadeiro (y) 1

Probabilidade Prevista (ŷ) 0.70

0.01 0.99

Valor da Perda

0.3567

Gradiente

-0.4762

Confiança

70%

✓ 预测正确：模型预测为正类，真实标签也是正类

Curva de Perda

y = 1 (Rótulo verdadeiro é positivo)

y = 0 (Rótulo verdadeiro é negativo)

Ponto Atual

Percepções Chave

Punição de Confiança

Quando previsões estão erradas com alta confiança, a perda aumenta dramaticamente. Isso incentiva modelos a serem cautelosos quando incertos.

Escala Logarítmica

Usando função logarítmica, a perda se aproxima de 0 para previsões corretas (probabilidade perto de 1) e infinito para previsões erradas (probabilidade perto de 0).

Interpretação do Gradiente

O gradiente indica a direção da mudança de perda. Gradiente negativo significa aumentar a probabilidade de previsão reduz a perda (quando y=1).

Fórmula de Entropia Cruzada Categórica

yᵢ: Classe verdadeira (codificação one-hot)

ŷᵢ: Probabilidade prevista (saída softmax)

Demo Softmax (Classificação de 3 Classes)

Logits de Entrada

Class A: z₁ 2.0

Class B: z₂ 1.0

Class C: z₃ -1.0

Temperatura T 1.0

Probabilidades de Saída Softmax

Selecionar Classe Verdadeira

Perda de Entropia Cruzada

0.3265

Classe Prevista

Class A

Confiança

70.5%

Fórmula Softmax

Comparação de Distribuição de Probabilidade

Percepções Chave

Normalização Softmax

Softmax converte logits em distribuição de probabilidade somando 1. Função exponencial garante que todas as saídas sejam positivas.

Efeito de Diferença de Logit

Mesmo valores de logit similares podem produzir probabilidades significativamente diferentes após softmax. Diferenças relativas importam mais que absolutas.

Efeito de Temperatura

Parâmetro de temperatura controla o 'afilamento' da saída: temperatura alta torna a distribuição mais uniforme, temperatura baixa torna mais afiada.

Comparação de Funções de Perda

Comparar perda de entropia cruzada com erro quadrático médio (MSE) em tarefas de classificação

Demo de Comparação

Rótulo Verdadeiro (y) 1

Probabilidade Prevista (ŷ) 0.70

0.01 0.99

Perda de Entropia Cruzada

0.3567

梯度: -0.4762

Erro Quadrático Médio (MSE)

0.0900

梯度: -0.6000

Comparação de Curvas de Perda (y=1)

Prós e Contras

Característica	Perda de Entropia Cruzada	Erro Quadrático Médio (MSE)
Gradiente para Previsões Erradas	Gradiente grande, correção rápida	Gradiente pequeno, convergência lenta
Gradiente para Previsões Corretas	Gradiente pequeno, convergência estável	Gradiente não zero, pode ultrapassar
Convexidade	Convexa para sigmoid/softmax	Globalmente convexa
Interpretação Probabilística	Estimação de máxima verossimilhança	Método dos mínimos quadrados
Melhor Caso de Uso	Tarefas de classificação	Tarefas de regressão

Contexto Teórico

Perspectiva de Teoria da Informação

Entropia cruzada mede a diferença entre duas distribuições de probabilidade. Em classificação, ela representa a 'distância' entre distribuições verdadeira e prevista. Minimizar entropia cruzada é equivalente a maximizar a verossimilhança.

Relação de Divergência KL

Entropia cruzada = Divergência KL + Entropia. Como a entropia da distribuição verdadeira é constante, minimizar entropia cruzada é equivalente a minimizar divergência KL.

Por que não MSE para Classificação?

MSE assume erros distribuídos gaussianos, adequado para regressão. Mas para classificação, entropia cruzada fornece sinais de gradiente mais fortes, especialmente quando previsões estão erradas, permitindo correção mais rápida do modelo.

Dicas Práticas

Estabilidade Numérica

Cálculo direto de log(0) causa underflow numérico. Implementações tipicamente usam o truque log(sum(exp(x))) para evitar este problema.

Suavização de Rótulos

Substituir rótulos duros (0,1) por rótulos suaves (ex., 0.1, 0.9) para prevenir excesso de confiança e melhorar generalização.

Desequilíbrio de Classes

Para conjuntos de dados desequilibrados, usar entropia cruzada ponderada para dar mais peso às classes minoritárias.

Escolha da Função de Ativação

Usar sigmoid para classificação binária, softmax para multiclasses. Garantir que a ativação da última camada corresponda à função de perda.