Red neuronal feedforward / MLP

Perceptrón multicapa - La base del aprendizaje profundo

Desde el perceptrón de Rosenblatt (1958) hasta los Transformers modernos - el aproximador universal de funciones

Visualización de la estructura de la red

Visualiza el flujo de datos por capas de entrada, ocultas y salida

Paso hacia delante: x -> [Hidden] -> ... -> y

Configuración de la red

Neuronas de entrada:

Capas ocultas:

Neuronas por capa oculta:

Neuronas de salida:

Animación

Concepto clave

FFNN: La información fluye solo hacia delante (Input -> Hidden -> Output), sin bucles ni ciclos

Demo de transformación por capas

Observa cómo cada capa transforma los datos: Transformación lineal + activación no lineal

z = Wa + b: Transformación lineal

a = sigma(z): Activación no lineal

Pesos y sesgo

W₁₁: 0.8

W₁₂: -0.5

b: 0.2

Función de activación

¿Por qué no linealidad?

Sin activación: y = W2(W1x) = (W2W1)x sigue siendo lineal. No puede aprender patrones complejos.

Galería de funciones de activación

Compara distintas funciones de activación y sus gradientes

Detalles de la función

Fórmula: f(x) = 1/(1+e^(-x))

Rango: (0, 1)

Gradiente: f'(x) = f(x)(1-f(x))

Ventajas: Smooth, differentiable

Problemas: Vanishing gradient

Tabla de evolución

Función	Ventajas	Problemas
Sigmoid	Suave	Desvanecimiento
Tanh	Centrada en cero	Desvanecimiento
ReLU	Simple, rápida	Neuronas muertas
Leaky ReLU	Sin muertas	Ajustar alpha
GELU	Suave, teoría	Compleja

Teorema de aproximación universal

MLP puede aproximar cualquier función continua en subconjuntos compactos

Función objetivo

Neuronas ocultas:

Capas:

Teorema (Cybenko, 1989)

Una red feedforward con una sola capa oculta y un número finito de neuronas puede aproximar cualquier función continua en subconjuntos compactos de R^n

Intuición geométrica

Capa 1: Divide el espacio en regiones. Capas más profundas: Forman fronteras de decisión complejas por composición.

Visualización de la retropropagación

Observa cómo los gradientes fluyen hacia atrás por la red

Regla de la cadena: dL/dW = dL/da * da/dz * dz/dW

Simulación

Tasa de aprendizaje:

Estado del flujo de gradiente

Haz clic en los botones para empezar

Actualización de parámetros

W <- W - lr * dL/dW

Cada gradiente se calcula multiplicando el gradiente local por el gradiente ascendente (regla de la cadena)

Bloque MLP de Transformer

Entiende por qué cada bloque Transformer contiene un MLP/FFN

Modo de vista

Factor de expansión:

¿Por qué MLP en Transformer?

1 Attention: Interacción entre tokens (mezcla global)

2 MLP: Refinamiento de características por token (profundidad local)

3 Complementarios: Juntos permiten representaciones ricas

Evidencia experimental

Quitar MLP -> Caída severa del rendimiento
Quitar 30-50% de Attention -> Impacto menor
MLP aporta capacidad no lineal crítica

FFN(x): GELU(xW1 + b1)W2 + b2

Típico: d_model -> 4d_model -> d_model

Diseño de red

Datos pequeños: 2-4 layers

Datos grandes: 5-20 layers

Regla de ancho: 2-10x input dim

Métodos de inicialización

ReLU Family -> He/Kaiming Init

Sigmoid/Tanh -> Xavier/Glorot Init

Regularización

L2 Weight Decay (evita pesos grandes)
Dropout (desactivación aleatoria)
BatchNorm / LayerNorm (entrenamiento estable)
Early Stopping (evita sobreajuste)

Aplicaciones reales

Predicción del precio de la vivienda Regresión con características tabulares

Detección de fraude Clasificación binaria sobre datos de transacciones

Diagnóstico médico Clasificación multiclase sobre datos de pacientes

Línea temporal histórica

1958 Rosenblatt: Perceptrón

1986 Rumelhart/Hinton: Retropropagación

2011 Revolución ReLU

2017 Transformer + GELU

2018 Turing Award: Hinton, LeCun, Bengio

Limitaciones del MLP

Alto número de parámetros para entradas de alta dimensión
Sin explotación estructural incorporada (a diferencia de CNN/RNN)
Propenso al sobreajuste en conjuntos de datos pequeños
Requiere tamaño de entrada fijo

Resumen en una línea

MLP = Múltiples composiciones de "Transformación lineal + Activación no lineal" = aproximador universal de funciones