Red neuronal feedforward / MLP

Perceptrón multicapa - La base del aprendizaje profundo

Desde el perceptrón de Rosenblatt (1958) hasta los Transformers modernos - el aproximador universal de funciones

Visualización de la estructura de la red

Visualiza el flujo de datos por capas de entrada, ocultas y salida

Paso hacia delante: x -> [Hidden] -> ... -> y

Configuración de la red

Animación

Concepto clave

FFNN: La información fluye solo hacia delante (Input -> Hidden -> Output), sin bucles ni ciclos

Demo de transformación por capas

Observa cómo cada capa transforma los datos: Transformación lineal + activación no lineal

z = Wa + b: Transformación lineal
a = sigma(z): Activación no lineal

Pesos y sesgo

Función de activación

¿Por qué no linealidad?

Sin activación: y = W2(W1x) = (W2W1)x sigue siendo lineal. No puede aprender patrones complejos.

Galería de funciones de activación

Compara distintas funciones de activación y sus gradientes

Detalles de la función

Fórmula: f(x) = 1/(1+e^(-x))
Rango: (0, 1)
Gradiente: f'(x) = f(x)(1-f(x))
Ventajas: Smooth, differentiable
Problemas: Vanishing gradient

Tabla de evolución

Función Ventajas Problemas
Sigmoid Suave Desvanecimiento
Tanh Centrada en cero Desvanecimiento
ReLU Simple, rápida Neuronas muertas
Leaky ReLU Sin muertas Ajustar alpha
GELU Suave, teoría Compleja

Teorema de aproximación universal

MLP puede aproximar cualquier función continua en subconjuntos compactos

Función objetivo

Teorema (Cybenko, 1989)

Una red feedforward con una sola capa oculta y un número finito de neuronas puede aproximar cualquier función continua en subconjuntos compactos de R^n

Intuición geométrica

Capa 1: Divide el espacio en regiones. Capas más profundas: Forman fronteras de decisión complejas por composición.

Visualización de la retropropagación

Observa cómo los gradientes fluyen hacia atrás por la red

Regla de la cadena: dL/dW = dL/da * da/dz * dz/dW

Simulación

Estado del flujo de gradiente

Haz clic en los botones para empezar

Actualización de parámetros

W <- W - lr * dL/dW

Cada gradiente se calcula multiplicando el gradiente local por el gradiente ascendente (regla de la cadena)

Bloque MLP de Transformer

Entiende por qué cada bloque Transformer contiene un MLP/FFN

Modo de vista

¿Por qué MLP en Transformer?

1 Attention: Interacción entre tokens (mezcla global)
2 MLP: Refinamiento de características por token (profundidad local)
3 Complementarios: Juntos permiten representaciones ricas

Evidencia experimental

  • Quitar MLP -> Caída severa del rendimiento
  • Quitar 30-50% de Attention -> Impacto menor
  • MLP aporta capacidad no lineal crítica
FFN(x): GELU(xW1 + b1)W2 + b2
Típico: d_model -> 4d_model -> d_model

Diseño de red

Datos pequeños: 2-4 layers
Datos grandes: 5-20 layers
Regla de ancho: 2-10x input dim

Métodos de inicialización

ReLU Family -> He/Kaiming Init
Sigmoid/Tanh -> Xavier/Glorot Init

Regularización

  • L2 Weight Decay (evita pesos grandes)
  • Dropout (desactivación aleatoria)
  • BatchNorm / LayerNorm (entrenamiento estable)
  • Early Stopping (evita sobreajuste)

Aplicaciones reales

1
Predicción del precio de la vivienda Regresión con características tabulares
2
Detección de fraude Clasificación binaria sobre datos de transacciones
3
Diagnóstico médico Clasificación multiclase sobre datos de pacientes

Línea temporal histórica

1958 Rosenblatt: Perceptrón
1986 Rumelhart/Hinton: Retropropagación
2011 Revolución ReLU
2017 Transformer + GELU
2018 Turing Award: Hinton, LeCun, Bengio

Limitaciones del MLP

  • Alto número de parámetros para entradas de alta dimensión
  • Sin explotación estructural incorporada (a diferencia de CNN/RNN)
  • Propenso al sobreajuste en conjuntos de datos pequeños
  • Requiere tamaño de entrada fijo

Resumen en una línea

MLP = Múltiples composiciones de "Transformación lineal + Activación no lineal" = aproximador universal de funciones