Perceptron/Neuron - Die Grundeinheit des Deep Learning

Interaktive Visualisierung von Perceptron, Aktivierungsfunktionen und Grundlagen neuronaler Netze

Frank Rosenblatt, 1958 - Die atomare Struktur neuronaler Netze

Perceptron Grundform

Passen Sie Gewichte und Bias an, um zu sehen, wie das Perceptron seine Ausgabe berechnet

Skalarform: y = f(∑wixi + b)
Vektorform: y = f(wTx + b)

Eingaben (x)

Gewichte (w)

Bias (b)

Aktivierungsfunktion

Berechnung

Gewichtete Summe (z): 0.55
Ausgabe (y): 0.63

Warum Aktivierungsfunktionen Notwendig Sind

Ohne Aktivierungsfunktionen bleiben neuronale Netze linear unabhaengig von der Tiefe

Kernaussage

Lineare Komposition von Linear = Linear

f(g(x)) = ax + b, where both are linear

Drei Kernziele

1 Nichtlinearitaet einfuehren um komplexe Muster zu lernen
2 Numerischen Bereich der Ausgaben kontrollieren
3 Differenzierbarkeit fuer Backpropagation bereitstellen

Entwicklungsgeschichte

1958 Step Function (Rosenblatt)
1980s Sigmoid/Tanh
2011 ReLU (Revolution)
2017+ Swish/GELU

Aktivierungsfunktionen-Galerie

Vergleichen Sie verschiedene Aktivierungsfunktionen und ihre Ableitungen

Funktionsdetails

Formel: f(z) = 1/(1+e^(-z))
Bereich: (0, 1)
Ableitung: f'(z) = f(z)(1-f(z))
Vorteile: Smooth, differentiable, probabilistic interpretation
Nachteile: Gradient vanishing, non-zero centered

Echtzeit-Rechner

Gradientenfluss-Visualisierung

Sehen Sie wie Gradienten durch verschiedene Aktivierungsfunktionen fliessen

Backpropagation-Formel

∂L/∂wi = ∂L/∂y · f'(z) · xi

Wenn f'(z) ~ 0, verschwindet der Gradient!

Gradientenstabilitaets-Vergleich

Funktion Grosses |z| Gradient z=0 Gradient
Sigmoid ≈0 (vanishing) 0.25
Tanh ≈0 (vanishing) 1.0
ReLU 1 (for z>0) 0 or 1
Swish Smooth non-zero 0.5
GELU Smooth non-zero 0.5

Ausdrucksstaerke

ReLU family: Stueckweise lineare Annaeherung
GELU/Swish: Glatte nichtlineare Annaeherung

Von einem Neuron zu Tiefen Netzen

Vergleichen Sie rein lineare Netze mit Netzen mit nichtlinearen Aktivierungen

Mehrschicht-Komposition

h(l) = f(W(l)·h(l-1) + b(l))

Netzwerktyp

Anzahl der Schichten

Zielfunktion

Universeller Approximationssatz

Ein Feedforward-Netz mit mindestens einer verborgenen Schicht kann jede stetige Funktion auf kompakten Teilmengen von R^n approximieren

Verborgene Schichten

Standard: ReLU
Transformer: GELU / Swish

Ausgabeschichten

Aufgabe Aktivierung
Binaere Klassifikation Sigmoid
Mehrklassen-Klassifikation Softmax
Regression Linear (keine)

Initialisierungs-Abstimmung

ReLU He Initialization
Tanh/Sigmoid Xavier Initialization

Kombinationstechniken

  • Aktivierung + BatchNorm fuer stabiles Training
  • Residuelle Verbindung + ReLU/GELU fuer tiefe Netze
  • LayerNorm + GELU fuer Transformers

Konzeptionelles Verstaendnis

Gewichte

Lernen "was zu betrachten"

Bias

Lernen "Schwellenwert"

Aktivierung

Lernen "wie zu reagieren"

Neuron = Lernbarer Merkmalstransformator mit nichtlinearer Gatterung

Einzeilige Zusammenfassung

Das Perceptron ist die atomare Struktur neuronaler Netze

Aktivierungsfunktionen bestimmen ob Netze komplexe Muster lernen koennen

ReLU machte Deep Learning wirklich trainierbar

GELU/Swish machen grosse Modelle stabiler und leistungsfaehiger