Perceptron multicouche - Le fondement du deep learning
Visualisez le flux des données à travers les couches d'entrée, cachées et de sortie
FFNN: L'information circule uniquement vers l'avant (Input -> Hidden -> Output), sans boucles ni cycles
Voyez comment chaque couche transforme les données: Transformation linéaire + activation non linéaire
Sans activation: y = W2(W1x) = (W2W1)x reste linéaire! Impossible d'apprendre des motifs complexes.
Comparez différentes fonctions d'activation et leurs gradients
| Fonction | Avantages | Problèmes |
|---|---|---|
| Sigmoid | Lisse | Évanescence |
| Tanh | Centrée en zéro | Évanescence |
| ReLU | Simple, rapide | Neurones morts |
| Leaky ReLU | Pas de neurones morts | Ajuster alpha |
| GELU | Lisse, théorie | Complexe |
MLP peut approximer toute fonction continue sur des sous-ensembles compacts
Un réseau feedforward avec une seule couche cachée contenant un nombre fini de neurones peut approximer toute fonction continue sur des sous-ensembles compacts de R^n
Couche 1: Découpe l'espace en régions. Couches plus profondes: Forment des frontières de décision complexes par composition.
Observez les gradients se propager vers l'arrière dans le réseau
W <- W - lr * dL/dW
Chaque gradient est calculé en multipliant le gradient local par le gradient amont (règle de la chaîne)
Comprendre pourquoi chaque bloc Transformer contient un MLP/FFN
MLP = Compositions multiples de "Transformation linéaire + Activation non linéaire" = approximateur universel de fonctions