Visualizacion interactiva del perceptron, funciones de activacion y fundamentos de redes neuronales
Ajusta los pesos y el sesgo para ver como el perceptron calcula su salida
Sin funciones de activacion, las redes neuronales permanecen lineales sin importar la profundidad
Composicion Lineal de Lineal = Lineal
Compara diferentes funciones de activacion y sus derivadas
Observa como se propagan los gradientes a traves de diferentes funciones de activacion
Si f'(z) ~ 0, el gradiente desaparece!
| Funcion | Gradiente |z| Grande | Gradiente z=0 |
|---|---|---|
| Sigmoid | ≈0 (vanishing) | 0.25 |
| Tanh | ≈0 (vanishing) | 1.0 |
| ReLU | 1 (for z>0) | 0 or 1 |
| Swish | Smooth non-zero | 0.5 |
| GELU | Smooth non-zero | 0.5 |
Compara redes solo lineales vs redes con activaciones no lineales
Una red feedforward con al menos una capa oculta puede aproximar cualquier funcion continua en subconjuntos compactos de R^n
| Tarea | Activacion |
|---|---|
| Clasificacion Binaria | Sigmoid |
| Clasificacion Multiclase | Softmax |
| Regresion | Lineal (ninguna) |
Aprender "que mirar"
Aprender "umbral"
Aprender "como responder"
Neurona = Transformador de caracteristicas aprendible con compuerta no lineal
El perceptron es la estructura atomica de las redes neuronales
Las funciones de activacion determinan si las redes pueden aprender patrones complejos
ReLU hizo que el deep learning fuera realmente entrenable
GELU/Swish hacen que los modelos grandes sean mas estables y poderosos