Mehrschicht-Perzeptron - Die Grundlage des Deep Learning
Visualisiere den Datenfluss durch Eingabe-, Hidden- und Ausgabeschichten
FFNN: Informationen fließen nur vorwärts (Input -> Hidden -> Output), ohne Schleifen oder Zyklen
Sieh, wie jede Schicht Daten transformiert: Lineare + nichtlineare Aktivierung
Ohne Aktivierung: y = W2(W1x) = (W2W1)x bleibt linear! Komplexe Muster können nicht gelernt werden.
Vergleiche verschiedene Aktivierungsfunktionen und ihre Gradienten
| Funktion | Vorteile | Probleme |
|---|---|---|
| Sigmoid | Glatt | Verschwinden |
| Tanh | Um Null zentriert | Verschwinden |
| ReLU | Einfach, schnell | Tote Neuronen |
| Leaky ReLU | Keine toten | Alpha abstimmen |
| GELU | Glatt, Theorie | Komplex |
MLP kann jede stetige Funktion auf kompakten Teilmengen approximieren
Ein Feedforward-Netz mit einer einzelnen Hidden-Schicht und endlich vielen Neuronen kann jede stetige Funktion auf kompakten Teilmengen von R^n approximieren
Layer 1: Teilt den Raum in Regionen. Tiefere Layer: Formen durch Komposition komplexe Entscheidungsgrenzen.
Beobachte, wie Gradienten rückwärts durch das Netzwerk fließen
W <- W - lr * dL/dW
Jeder Gradient wird berechnet, indem der lokale Gradient mit dem Upstream-Gradienten multipliziert wird (Kettenregel)
Warum jeder Transformer-Block ein MLP/FFN enthält
MLP = Mehrfache Kompositionen aus "Linearer Transformation + nichtlinearer Aktivierung" = universeller Funktionsapproximator