Feedforward-Neuronales Netzwerk / MLP

Mehrschicht-Perzeptron - Die Grundlage des Deep Learning

Vom Rosenblatt-Perzeptron (1958) bis zu modernen Transformern - der universelle Funktionsapproximator

Visualisierung der Netzwerkstruktur

Visualisiere den Datenfluss durch Eingabe-, Hidden- und Ausgabeschichten

Vorwärtsdurchlauf: x -> [Hidden] -> ... -> y

Netzwerkkonfiguration

Animation

Kernkonzept

FFNN: Informationen fließen nur vorwärts (Input -> Hidden -> Output), ohne Schleifen oder Zyklen

Demo der Schichttransformation

Sieh, wie jede Schicht Daten transformiert: Lineare + nichtlineare Aktivierung

z = Wa + b: Lineare Transformation
a = sigma(z): Nichtlineare Aktivierung

Gewichte und Bias

Aktivierungsfunktion

Warum Nichtlinearität?

Ohne Aktivierung: y = W2(W1x) = (W2W1)x bleibt linear! Komplexe Muster können nicht gelernt werden.

Galerie der Aktivierungsfunktionen

Vergleiche verschiedene Aktivierungsfunktionen und ihre Gradienten

Funktionsdetails

Formel: f(x) = 1/(1+e^(-x))
Bereich: (0, 1)
Gradient: f'(x) = f(x)(1-f(x))
Vorteile: Smooth, differentiable
Probleme: Vanishing gradient

Entwicklungstabelle

Funktion Vorteile Probleme
Sigmoid Glatt Verschwinden
Tanh Um Null zentriert Verschwinden
ReLU Einfach, schnell Tote Neuronen
Leaky ReLU Keine toten Alpha abstimmen
GELU Glatt, Theorie Komplex

Satz zur universellen Approximation

MLP kann jede stetige Funktion auf kompakten Teilmengen approximieren

Zielfunktion

Satz (Cybenko, 1989)

Ein Feedforward-Netz mit einer einzelnen Hidden-Schicht und endlich vielen Neuronen kann jede stetige Funktion auf kompakten Teilmengen von R^n approximieren

Geometrische Intuition

Layer 1: Teilt den Raum in Regionen. Tiefere Layer: Formen durch Komposition komplexe Entscheidungsgrenzen.

Backpropagation-Visualisierung

Beobachte, wie Gradienten rückwärts durch das Netzwerk fließen

Kettenregel: dL/dW = dL/da * da/dz * dz/dW

Simulation

Status des Gradientenflusses

Zum Start auf die Buttons klicken

Parameter-Update

W <- W - lr * dL/dW

Jeder Gradient wird berechnet, indem der lokale Gradient mit dem Upstream-Gradienten multipliziert wird (Kettenregel)

Transformer MLP-Block

Warum jeder Transformer-Block ein MLP/FFN enthält

Ansichtsmodus

Warum MLP im Transformer?

1 Attention: Token-Interaktion (globales Mixing)
2 MLP: Per-Token-Feature-Verfeinerung (lokale Tiefe)
3 Komplementär: Zusammen ermöglichen sie reichhaltige Repräsentationen

Experimentelle Evidenz

  • MLP entfernen -> Starker Leistungsabfall
  • 30-50% Attention entfernen -> Geringe Auswirkung
  • MLP liefert kritische nichtlineare Kapazität
FFN(x): GELU(xW1 + b1)W2 + b2
Typisch: d_model -> 4d_model -> d_model

Netzwerkdesign

Kleine Daten: 2-4 layers
Große Daten: 5-20 layers
Breitenregel: 2-10x input dim

Initialisierungsmethoden

ReLU Family -> He/Kaiming Init
Sigmoid/Tanh -> Xavier/Glorot Init

Regularisierung

  • L2 Weight Decay (verhindert große Gewichte)
  • Dropout (zufällige Deaktivierung)
  • BatchNorm / LayerNorm (stabiles Training)
  • Early Stopping (verhindert Overfitting)

Praxisanwendungen

1
Hauspreisprognose Regression mit tabellarischen Merkmalen
2
Betrugserkennung Binäre Klassifikation auf Transaktionsdaten
3
Medizinische Diagnose Multiklassen-Klassifikation auf Patientendaten

Historische Zeitleiste

1958 Rosenblatt: Perzeptron
1986 Rumelhart/Hinton: Backpropagation
2011 ReLU-Revolution
2017 Transformer + GELU
2018 Turing Award: Hinton, LeCun, Bengio

MLP-Limitierungen

  • Hohe Parameterzahl bei hochdimensionalen Eingaben
  • Keine eingebaute Strukturnutzung (anders als CNN/RNN)
  • Anfällig für Overfitting bei kleinen Datensätzen
  • Feste Eingabegröße erforderlich

Ein-Satz-Zusammenfassung

MLP = Mehrfache Kompositionen aus "Linearer Transformation + nichtlinearer Aktivierung" = universeller Funktionsapproximator