Feedforward-Neuronales Netzwerk / MLP

Mehrschicht-Perzeptron - Die Grundlage des Deep Learning

Vom Rosenblatt-Perzeptron (1958) bis zu modernen Transformern - der universelle Funktionsapproximator

Visualisierung der Netzwerkstruktur

Visualisiere den Datenfluss durch Eingabe-, Hidden- und Ausgabeschichten

Vorwärtsdurchlauf: x -> [Hidden] -> ... -> y

Netzwerkkonfiguration

Eingabeneuronen:

Hidden-Layer:

Neuronen pro Hidden-Layer:

Ausgabeneuronen:

Animation

Kernkonzept

FFNN: Informationen fließen nur vorwärts (Input -> Hidden -> Output), ohne Schleifen oder Zyklen

Demo der Schichttransformation

Sieh, wie jede Schicht Daten transformiert: Lineare + nichtlineare Aktivierung

z = Wa + b: Lineare Transformation

a = sigma(z): Nichtlineare Aktivierung

Gewichte und Bias

W₁₁: 0.8

W₁₂: -0.5

b: 0.2

Aktivierungsfunktion

Warum Nichtlinearität?

Ohne Aktivierung: y = W2(W1x) = (W2W1)x bleibt linear! Komplexe Muster können nicht gelernt werden.

Galerie der Aktivierungsfunktionen

Vergleiche verschiedene Aktivierungsfunktionen und ihre Gradienten

Funktionsdetails

Formel: f(x) = 1/(1+e^(-x))

Bereich: (0, 1)

Gradient: f'(x) = f(x)(1-f(x))

Vorteile: Smooth, differentiable

Probleme: Vanishing gradient

Entwicklungstabelle

Funktion	Vorteile	Probleme
Sigmoid	Glatt	Verschwinden
Tanh	Um Null zentriert	Verschwinden
ReLU	Einfach, schnell	Tote Neuronen
Leaky ReLU	Keine toten	Alpha abstimmen
GELU	Glatt, Theorie	Komplex

Satz zur universellen Approximation

MLP kann jede stetige Funktion auf kompakten Teilmengen approximieren

Zielfunktion

Hidden-Neuronen:

Layer:

Satz (Cybenko, 1989)

Ein Feedforward-Netz mit einer einzelnen Hidden-Schicht und endlich vielen Neuronen kann jede stetige Funktion auf kompakten Teilmengen von R^n approximieren

Geometrische Intuition

Layer 1: Teilt den Raum in Regionen. Tiefere Layer: Formen durch Komposition komplexe Entscheidungsgrenzen.

Backpropagation-Visualisierung

Beobachte, wie Gradienten rückwärts durch das Netzwerk fließen

Kettenregel: dL/dW = dL/da * da/dz * dz/dW

Simulation

Lernrate:

Status des Gradientenflusses

Zum Start auf die Buttons klicken

Parameter-Update

W <- W - lr * dL/dW

Jeder Gradient wird berechnet, indem der lokale Gradient mit dem Upstream-Gradienten multipliziert wird (Kettenregel)

Transformer MLP-Block

Warum jeder Transformer-Block ein MLP/FFN enthält

Ansichtsmodus

Expansionsfaktor:

Warum MLP im Transformer?

1 Attention: Token-Interaktion (globales Mixing)

2 MLP: Per-Token-Feature-Verfeinerung (lokale Tiefe)

3 Komplementär: Zusammen ermöglichen sie reichhaltige Repräsentationen

Experimentelle Evidenz

MLP entfernen -> Starker Leistungsabfall
30-50% Attention entfernen -> Geringe Auswirkung
MLP liefert kritische nichtlineare Kapazität

FFN(x): GELU(xW1 + b1)W2 + b2

Typisch: d_model -> 4d_model -> d_model

Netzwerkdesign

Kleine Daten: 2-4 layers

Große Daten: 5-20 layers

Breitenregel: 2-10x input dim

Initialisierungsmethoden

ReLU Family -> He/Kaiming Init

Sigmoid/Tanh -> Xavier/Glorot Init

Regularisierung

L2 Weight Decay (verhindert große Gewichte)
Dropout (zufällige Deaktivierung)
BatchNorm / LayerNorm (stabiles Training)
Early Stopping (verhindert Overfitting)

Praxisanwendungen

Hauspreisprognose Regression mit tabellarischen Merkmalen

Betrugserkennung Binäre Klassifikation auf Transaktionsdaten

Medizinische Diagnose Multiklassen-Klassifikation auf Patientendaten

Historische Zeitleiste

1958 Rosenblatt: Perzeptron

1986 Rumelhart/Hinton: Backpropagation

2011 ReLU-Revolution

2017 Transformer + GELU

2018 Turing Award: Hinton, LeCun, Bengio

MLP-Limitierungen

Hohe Parameterzahl bei hochdimensionalen Eingaben
Keine eingebaute Strukturnutzung (anders als CNN/RNN)
Anfällig für Overfitting bei kleinen Datensätzen
Feste Eingabegröße erforderlich

Ein-Satz-Zusammenfassung

MLP = Mehrfache Kompositionen aus "Linearer Transformation + nichtlinearer Aktivierung" = universeller Funktionsapproximator