Perceptron/Neurone - L'Unite Fondamentale du Deep Learning

Visualisation interactive du perceptron, des fonctions d'activation et des fondamentaux des reseaux de neurones

Frank Rosenblatt, 1958 - La structure atomique des reseaux de neurones

Forme de Base du Perceptron

Ajustez les poids et le biais pour voir comment le perceptron calcule sa sortie

Forme Scalaire: y = f(∑w_ix_i + b)

Forme Vectorielle: y = f(w^Tx + b)

Entrees (x)

x₁: 1.0

x₂: 0.5

x₃: -0.3

Poids (w)

w₁: 0.5

w₂: -0.3

w₃: 0.8

Biais (b)

b: 0.1

Fonction d'Activation

Calcul

Somme Ponderee (z): 0.55

Sortie (y): 0.63

Pourquoi les Fonctions d'Activation sont Necessaires

Sans fonctions d'activation, les reseaux de neurones restent lineaires quelle que soit la profondeur

Insight Cle

Composition Lineaire de Lineaire = Lineaire

f(g(x)) = ax + b, where both are linear

Trois Objectifs Principaux

1 Introduire la non-linearite pour apprendre des motifs complexes

2 Controler la plage numerique des sorties

3 Fournir la differentiabilite pour la retropropagation

Historique de l'Evolution

1958 Step Function (Rosenblatt)

1980s Sigmoid/Tanh

2011 ReLU (Revolution)

2017+ Swish/GELU

Galerie des Fonctions d'Activation

Comparez differentes fonctions d'activation et leurs derivees

Details de la Fonction

Formule: f(z) = 1/(1+e^(-z))

Plage: (0, 1)

Derivee: f'(z) = f(z)(1-f(z))

Avantages: Smooth, differentiable, probabilistic interpretation

Inconvenients: Gradient vanishing, non-zero centered

Calculateur en Temps Reel

Entree z:

Visualisation du Flux de Gradient

Voyez comment les gradients se propagent a travers differentes fonctions d'activation

Formule de Retropropagation

∂L/∂w_i = ∂L/∂y · f'(z) · x_i

Si f'(z) ~ 0, le gradient disparait!

Comparaison de Stabilite du Gradient

Fonction	Gradient \|z\| Grand	Gradient z=0
Sigmoid	≈0 (vanishing)	0.25
Tanh	≈0 (vanishing)	1.0
ReLU	1 (for z>0)	0 or 1
Swish	Smooth non-zero	0.5
GELU	Smooth non-zero	0.5

Expressivite

ReLU family: Approximation lineaire par morceaux

GELU/Swish: Approximation non lineaire lisse

D'un Seul Neurone aux Reseaux Profonds

Comparez les reseaux purement lineaires vs les reseaux avec activations non lineaires

Composition Multi-couches

h^(l) = f(W^(l)·h^(l-1) + b^(l))

Type de Reseau

Nombre de Couches

Couches:

Fonction Cible

Theoreme d'Approximation Universelle

Un reseau feedforward avec au moins une couche cachee peut approximer toute fonction continue sur des sous-ensembles compacts de R^n

Couches Cachees

Par Defaut: ReLU

Transformer: GELU / Swish

Couches de Sortie

Tache	Activation
Classification Binaire	Sigmoid
Classification Multi-classe	Softmax
Regression	Lineaire (aucune)

Correspondance d'Initialisation

ReLU → He Initialization

Tanh/Sigmoid → Xavier Initialization

Techniques de Combinaison

Activation + BatchNorm pour un entrainement stable
Connexion Residuelle + ReLU/GELU pour les reseaux profonds
LayerNorm + GELU pour les Transformers

Comprehension Conceptuelle

Poids

Apprendre "quoi regarder"

Biais

Apprendre "seuil"

Activation

Apprendre "comment repondre"

Neurone = Transformateur de caracteristiques apprenable avec porte non lineaire

Resume en Une Ligne

Le perceptron est la structure atomique des reseaux de neurones

Les fonctions d'activation determinent si les reseaux peuvent apprendre des motifs complexes

ReLU a rendu le deep learning vraiment entrainable

GELU/Swish rendent les grands modeles plus stables et puissants