Perceptrón multicapa - La base del aprendizaje profundo
Visualiza el flujo de datos por capas de entrada, ocultas y salida
FFNN: La información fluye solo hacia delante (Input -> Hidden -> Output), sin bucles ni ciclos
Observa cómo cada capa transforma los datos: Transformación lineal + activación no lineal
Sin activación: y = W2(W1x) = (W2W1)x sigue siendo lineal. No puede aprender patrones complejos.
Compara distintas funciones de activación y sus gradientes
| Función | Ventajas | Problemas |
|---|---|---|
| Sigmoid | Suave | Desvanecimiento |
| Tanh | Centrada en cero | Desvanecimiento |
| ReLU | Simple, rápida | Neuronas muertas |
| Leaky ReLU | Sin muertas | Ajustar alpha |
| GELU | Suave, teoría | Compleja |
MLP puede aproximar cualquier función continua en subconjuntos compactos
Una red feedforward con una sola capa oculta y un número finito de neuronas puede aproximar cualquier función continua en subconjuntos compactos de R^n
Capa 1: Divide el espacio en regiones. Capas más profundas: Forman fronteras de decisión complejas por composición.
Observa cómo los gradientes fluyen hacia atrás por la red
W <- W - lr * dL/dW
Cada gradiente se calcula multiplicando el gradiente local por el gradiente ascendente (regla de la cadena)
Entiende por qué cada bloque Transformer contiene un MLP/FFN
MLP = Múltiples composiciones de "Transformación lineal + Activación no lineal" = aproximador universal de funciones