Perceptron/Neurone - L'Unite Fondamentale du Deep Learning

Visualisation interactive du perceptron, des fonctions d'activation et des fondamentaux des reseaux de neurones

Frank Rosenblatt, 1958 - La structure atomique des reseaux de neurones

Forme de Base du Perceptron

Ajustez les poids et le biais pour voir comment le perceptron calcule sa sortie

Forme Scalaire: y = f(∑wixi + b)
Forme Vectorielle: y = f(wTx + b)

Entrees (x)

Poids (w)

Biais (b)

Fonction d'Activation

Calcul

Somme Ponderee (z): 0.55
Sortie (y): 0.63

Pourquoi les Fonctions d'Activation sont Necessaires

Sans fonctions d'activation, les reseaux de neurones restent lineaires quelle que soit la profondeur

Insight Cle

Composition Lineaire de Lineaire = Lineaire

f(g(x)) = ax + b, where both are linear

Trois Objectifs Principaux

1 Introduire la non-linearite pour apprendre des motifs complexes
2 Controler la plage numerique des sorties
3 Fournir la differentiabilite pour la retropropagation

Historique de l'Evolution

1958 Step Function (Rosenblatt)
1980s Sigmoid/Tanh
2011 ReLU (Revolution)
2017+ Swish/GELU

Galerie des Fonctions d'Activation

Comparez differentes fonctions d'activation et leurs derivees

Details de la Fonction

Formule: f(z) = 1/(1+e^(-z))
Plage: (0, 1)
Derivee: f'(z) = f(z)(1-f(z))
Avantages: Smooth, differentiable, probabilistic interpretation
Inconvenients: Gradient vanishing, non-zero centered

Calculateur en Temps Reel

Visualisation du Flux de Gradient

Voyez comment les gradients se propagent a travers differentes fonctions d'activation

Formule de Retropropagation

∂L/∂wi = ∂L/∂y · f'(z) · xi

Si f'(z) ~ 0, le gradient disparait!

Comparaison de Stabilite du Gradient

Fonction Gradient |z| Grand Gradient z=0
Sigmoid ≈0 (vanishing) 0.25
Tanh ≈0 (vanishing) 1.0
ReLU 1 (for z>0) 0 or 1
Swish Smooth non-zero 0.5
GELU Smooth non-zero 0.5

Expressivite

ReLU family: Approximation lineaire par morceaux
GELU/Swish: Approximation non lineaire lisse

D'un Seul Neurone aux Reseaux Profonds

Comparez les reseaux purement lineaires vs les reseaux avec activations non lineaires

Composition Multi-couches

h(l) = f(W(l)·h(l-1) + b(l))

Type de Reseau

Nombre de Couches

Fonction Cible

Theoreme d'Approximation Universelle

Un reseau feedforward avec au moins une couche cachee peut approximer toute fonction continue sur des sous-ensembles compacts de R^n

Couches Cachees

Par Defaut: ReLU
Transformer: GELU / Swish

Couches de Sortie

Tache Activation
Classification Binaire Sigmoid
Classification Multi-classe Softmax
Regression Lineaire (aucune)

Correspondance d'Initialisation

ReLU He Initialization
Tanh/Sigmoid Xavier Initialization

Techniques de Combinaison

  • Activation + BatchNorm pour un entrainement stable
  • Connexion Residuelle + ReLU/GELU pour les reseaux profonds
  • LayerNorm + GELU pour les Transformers

Comprehension Conceptuelle

Poids

Apprendre "quoi regarder"

Biais

Apprendre "seuil"

Activation

Apprendre "comment repondre"

Neurone = Transformateur de caracteristiques apprenable avec porte non lineaire

Resume en Une Ligne

Le perceptron est la structure atomique des reseaux de neurones

Les fonctions d'activation determinent si les reseaux peuvent apprendre des motifs complexes

ReLU a rendu le deep learning vraiment entrainable

GELU/Swish rendent les grands modeles plus stables et puissants