Perceptron/Neurona - La Unidad Fundamental del Deep Learning

Visualizacion interactiva del perceptron, funciones de activacion y fundamentos de redes neuronales

Frank Rosenblatt, 1958 - La estructura atomica de las redes neuronales

Forma Basica del Perceptron

Ajusta los pesos y el sesgo para ver como el perceptron calcula su salida

Forma Escalar: y = f(∑w_ix_i + b)

Forma Vectorial: y = f(w^Tx + b)

Entradas (x)

x₁: 1.0

x₂: 0.5

x₃: -0.3

Pesos (w)

w₁: 0.5

w₂: -0.3

w₃: 0.8

Sesgo (b)

b: 0.1

Funcion de Activacion

Computacion

Suma Ponderada (z): 0.55

Salida (y): 0.63

Por Que Son Necesarias las Funciones de Activacion

Sin funciones de activacion, las redes neuronales permanecen lineales sin importar la profundidad

Insight Clave

Composicion Lineal de Lineal = Lineal

f(g(x)) = ax + b, where both are linear

Tres Propositos Principales

1 Introducir no linealidad para aprender patrones complejos

2 Controlar el rango numerico de las salidas

3 Proporcionar diferenciabilidad para retropropagacion

Historia de Evolucion

1958 Step Function (Rosenblatt)

1980s Sigmoid/Tanh

2011 ReLU (Revolution)

2017+ Swish/GELU

Galeria de Funciones de Activacion

Compara diferentes funciones de activacion y sus derivadas

Detalles de la Funcion

Formula: f(z) = 1/(1+e^(-z))

Rango: (0, 1)

Derivada: f'(z) = f(z)(1-f(z))

Ventajas: Smooth, differentiable, probabilistic interpretation

Desventajas: Gradient vanishing, non-zero centered

Calculadora en Tiempo Real

Entrada z:

Visualizacion del Flujo de Gradiente

Observa como se propagan los gradientes a traves de diferentes funciones de activacion

Formula de Retropropagacion

∂L/∂w_i = ∂L/∂y · f'(z) · x_i

Si f'(z) ~ 0, el gradiente desaparece!

Comparacion de Estabilidad de Gradiente

Funcion	Gradiente \|z\| Grande	Gradiente z=0
Sigmoid	≈0 (vanishing)	0.25
Tanh	≈0 (vanishing)	1.0
ReLU	1 (for z>0)	0 or 1
Swish	Smooth non-zero	0.5
GELU	Smooth non-zero	0.5

Expresividad

ReLU family: Aproximacion lineal por partes

GELU/Swish: Aproximacion no lineal suave

De Neurona Unica a Redes Profundas

Compara redes solo lineales vs redes con activaciones no lineales

Composicion Multicapa

h^(l) = f(W^(l)·h^(l-1) + b^(l))

Tipo de Red

Numero de Capas

Capas:

Funcion Objetivo

Teorema de Aproximacion Universal

Una red feedforward con al menos una capa oculta puede aproximar cualquier funcion continua en subconjuntos compactos de R^n

Capas Ocultas

Por Defecto: ReLU

Transformer: GELU / Swish

Capas de Salida

Tarea	Activacion
Clasificacion Binaria	Sigmoid
Clasificacion Multiclase	Softmax
Regresion	Lineal (ninguna)

Coincidencia de Inicializacion

ReLU → He Initialization

Tanh/Sigmoid → Xavier Initialization

Tecnicas de Combinacion

Activacion + BatchNorm para entrenamiento estable
Conexion Residual + ReLU/GELU para redes profundas
LayerNorm + GELU para Transformers

Comprension Conceptual

Pesos

Aprender "que mirar"

Sesgo

Aprender "umbral"

Activacion

Aprender "como responder"

Neurona = Transformador de caracteristicas aprendible con compuerta no lineal

Resumen en Una Linea

El perceptron es la estructura atomica de las redes neuronales

Las funciones de activacion determinan si las redes pueden aprender patrones complejos

ReLU hizo que el deep learning fuera realmente entrenable

GELU/Swish hacen que los modelos grandes sean mas estables y poderosos