Visualizacao interativa do perceptron, funcoes de ativacao e fundamentos de redes neurais
Ajuste os pesos e o vies para ver como o perceptron calcula sua saida
Sem funcoes de ativacao, as redes neurais permanecem lineares independentemente da profundidade
Composicao Linear de Linear = Linear
Compare diferentes funcoes de ativacao e suas derivadas
Veja como os gradientes se propagam atraves de diferentes funcoes de ativacao
Se f'(z) ~ 0, o gradiente desaparece!
| Funcao | Gradiente |z| Grande | Gradiente z=0 |
|---|---|---|
| Sigmoid | ≈0 (vanishing) | 0.25 |
| Tanh | ≈0 (vanishing) | 1.0 |
| ReLU | 1 (for z>0) | 0 or 1 |
| Swish | Smooth non-zero | 0.5 |
| GELU | Smooth non-zero | 0.5 |
Compare redes puramente lineares vs redes com ativacoes nao lineares
Uma rede feedforward com pelo menos uma camada oculta pode aproximar qualquer funcao continua em subconjuntos compactos de R^n
| Tarefa | Ativacao |
|---|---|
| Classificacao Binaria | Sigmoid |
| Classificacao Multiclasse | Softmax |
| Regressao | Linear (nenhuma) |
Aprender "o que olhar"
Aprender "limiar"
Aprender "como responder"
Neuronio = Transformador de caracteristicas aprendivel com porta nao linear
O perceptron e a estrutura atomica das redes neurais
As funcoes de ativacao determinam se as redes podem aprender padroes complexos
ReLU tornou o deep learning realmente treinavel
GELU/Swish tornam modelos grandes mais estaveis e poderosos