Backpropagation im Tiefenblick

BP systematisch verstehen: Geschichte, mathematische Herleitung, Intuition und Engineering.

1. Geschichte und Bedeutung

1986 systematisierten Rumelhart, Hinton und Williams BP fuer mehrschichtige Netze.

David E. Rumelhart

Erstautor der Schluesselarbeit zur mehrschichtigen Fehler-Rueckfuehrung.

Geoffrey E. Hinton

Praegte die moderne Renaissance neuronaler Netze entscheidend.

Ronald J. Williams

Mitautor mit zentralen theoretischen und empirischen Beitraegen.

2. Kernformeln

Stichwoerter: Kettenregel + dynamische Wiederverwendung. Aufwand nahezu linear in der Parameterzahl.

3. Mini-Labor zur Kettenregel

Setze g(x)=a*x+b, y=g(x)^2 und beobachte dy/dx.

4. Visualisierung des Rueckpropagationspfads

Forward aktiviert Knoten, Backward traegt Fehler rueckwaerts. Die Lernrate steuert die Intensitaet.

Warte auf Aktion

5. Gradienten-Stabilitaetslabor

Simuliere Kettenprodukte lokaler Ableitungen fuer Vanishing/Exploding Gradients.

6. Algorithmusablauf

  1. Forward ausfuehren und y_hat erhalten
  2. Verlust L(y_hat, y) berechnen
  3. delta[L] am Ausgang berechnen
  4. delta[l] per Kettenregel rueckwaerts propagieren
  5. dW, db berechnen und Parameter updaten
  6. Bis zur Konvergenz iterieren

7. Engineering-Hinweise

  • Aktivierungen: ReLU/GELU gegen Vanishing
  • Initialisierung: He/Xavier passend zur Aktivierung
  • Stabilisierung: LayerNorm/BatchNorm + Residuals
  • Optimierung: AdamW + Warmup + Weight Decay
  • Sicherheit: Gradient Clipping, Mixed Precision, NaN-Monitoring

Backpropagation = Kettenregel + Credit Assignment. Ohne sie gaebe es kein modernes Deep Learning im grossen Massstab.