Perceptron multicamadas - A base do aprendizado profundo
Visualize os dados fluindo pelas camadas de entrada, ocultas e saída
FFNN: A informação flui apenas para frente (Input -> Hidden -> Output), sem laços ou ciclos
Veja como cada camada transforma os dados: Transformação linear + ativação não linear
Sem ativação: y = W2(W1x) = (W2W1)x continua linear! Não consegue aprender padrões complexos.
Compare diferentes funções de ativação e seus gradientes
| Função | Vantagens | Problemas |
|---|---|---|
| Sigmoid | Suave | Desvanecimento |
| Tanh | Centrada em zero | Desvanecimento |
| ReLU | Simples, rápida | Neurônios mortos |
| Leaky ReLU | Sem mortos | Ajustar alpha |
| GELU | Suave, teoria | Complexa |
MLP pode aproximar qualquer função contínua em subconjuntos compactos
Uma rede feedforward com uma única camada oculta e número finito de neurônios pode aproximar qualquer função contínua em subconjuntos compactos de R^n
Camada 1: Corta o espaço em regiões. Camadas mais profundas: Formam fronteiras de decisão complexas por composição.
Observe os gradientes fluindo para trás pela rede
W <- W - lr * dL/dW
Cada gradiente é calculado multiplicando o gradiente local pelo gradiente a montante (regra da cadeia)
Entenda por que todo bloco Transformer contém um MLP/FFN
MLP = Múltiplas composições de "Transformação linear + Ativação não linear" = aproximador universal de funções