Perceptron/Neurona - La Unidad Fundamental del Deep Learning

Visualizacion interactiva del perceptron, funciones de activacion y fundamentos de redes neuronales

Frank Rosenblatt, 1958 - La estructura atomica de las redes neuronales

Forma Basica del Perceptron

Ajusta los pesos y el sesgo para ver como el perceptron calcula su salida

Forma Escalar: y = f(∑wixi + b)
Forma Vectorial: y = f(wTx + b)

Entradas (x)

Pesos (w)

Sesgo (b)

Funcion de Activacion

Computacion

Suma Ponderada (z): 0.55
Salida (y): 0.63

Por Que Son Necesarias las Funciones de Activacion

Sin funciones de activacion, las redes neuronales permanecen lineales sin importar la profundidad

Insight Clave

Composicion Lineal de Lineal = Lineal

f(g(x)) = ax + b, where both are linear

Tres Propositos Principales

1 Introducir no linealidad para aprender patrones complejos
2 Controlar el rango numerico de las salidas
3 Proporcionar diferenciabilidad para retropropagacion

Historia de Evolucion

1958 Step Function (Rosenblatt)
1980s Sigmoid/Tanh
2011 ReLU (Revolution)
2017+ Swish/GELU

Galeria de Funciones de Activacion

Compara diferentes funciones de activacion y sus derivadas

Detalles de la Funcion

Formula: f(z) = 1/(1+e^(-z))
Rango: (0, 1)
Derivada: f'(z) = f(z)(1-f(z))
Ventajas: Smooth, differentiable, probabilistic interpretation
Desventajas: Gradient vanishing, non-zero centered

Calculadora en Tiempo Real

Visualizacion del Flujo de Gradiente

Observa como se propagan los gradientes a traves de diferentes funciones de activacion

Formula de Retropropagacion

∂L/∂wi = ∂L/∂y · f'(z) · xi

Si f'(z) ~ 0, el gradiente desaparece!

Comparacion de Estabilidad de Gradiente

Funcion Gradiente |z| Grande Gradiente z=0
Sigmoid ≈0 (vanishing) 0.25
Tanh ≈0 (vanishing) 1.0
ReLU 1 (for z>0) 0 or 1
Swish Smooth non-zero 0.5
GELU Smooth non-zero 0.5

Expresividad

ReLU family: Aproximacion lineal por partes
GELU/Swish: Aproximacion no lineal suave

De Neurona Unica a Redes Profundas

Compara redes solo lineales vs redes con activaciones no lineales

Composicion Multicapa

h(l) = f(W(l)·h(l-1) + b(l))

Tipo de Red

Numero de Capas

Funcion Objetivo

Teorema de Aproximacion Universal

Una red feedforward con al menos una capa oculta puede aproximar cualquier funcion continua en subconjuntos compactos de R^n

Capas Ocultas

Por Defecto: ReLU
Transformer: GELU / Swish

Capas de Salida

Tarea Activacion
Clasificacion Binaria Sigmoid
Clasificacion Multiclase Softmax
Regresion Lineal (ninguna)

Coincidencia de Inicializacion

ReLU He Initialization
Tanh/Sigmoid Xavier Initialization

Tecnicas de Combinacion

  • Activacion + BatchNorm para entrenamiento estable
  • Conexion Residual + ReLU/GELU para redes profundas
  • LayerNorm + GELU para Transformers

Comprension Conceptual

Pesos

Aprender "que mirar"

Sesgo

Aprender "umbral"

Activacion

Aprender "como responder"

Neurona = Transformador de caracteristicas aprendible con compuerta no lineal

Resumen en Una Linea

El perceptron es la estructura atomica de las redes neuronales

Las funciones de activacion determinan si las redes pueden aprender patrones complejos

ReLU hizo que el deep learning fuera realmente entrenable

GELU/Swish hacen que los modelos grandes sean mas estables y poderosos