Perceptron/Neuron - Die Grundeinheit des Deep Learning

Interaktive Visualisierung von Perceptron, Aktivierungsfunktionen und Grundlagen neuronaler Netze

Frank Rosenblatt, 1958 - Die atomare Struktur neuronaler Netze

Perceptron Grundform

Passen Sie Gewichte und Bias an, um zu sehen, wie das Perceptron seine Ausgabe berechnet

Skalarform: y = f(∑w_ix_i + b)

Vektorform: y = f(w^Tx + b)

Eingaben (x)

x₁: 1.0

x₂: 0.5

x₃: -0.3

Gewichte (w)

w₁: 0.5

w₂: -0.3

w₃: 0.8

Bias (b)

b: 0.1

Aktivierungsfunktion

Berechnung

Gewichtete Summe (z): 0.55

Ausgabe (y): 0.63

Warum Aktivierungsfunktionen Notwendig Sind

Ohne Aktivierungsfunktionen bleiben neuronale Netze linear unabhaengig von der Tiefe

Kernaussage

Lineare Komposition von Linear = Linear

f(g(x)) = ax + b, where both are linear

Drei Kernziele

1 Nichtlinearitaet einfuehren um komplexe Muster zu lernen

2 Numerischen Bereich der Ausgaben kontrollieren

3 Differenzierbarkeit fuer Backpropagation bereitstellen

Entwicklungsgeschichte

1958 Step Function (Rosenblatt)

1980s Sigmoid/Tanh

2011 ReLU (Revolution)

2017+ Swish/GELU

Aktivierungsfunktionen-Galerie

Vergleichen Sie verschiedene Aktivierungsfunktionen und ihre Ableitungen

Funktionsdetails

Formel: f(z) = 1/(1+e^(-z))

Bereich: (0, 1)

Ableitung: f'(z) = f(z)(1-f(z))

Vorteile: Smooth, differentiable, probabilistic interpretation

Nachteile: Gradient vanishing, non-zero centered

Echtzeit-Rechner

Eingabe z:

Gradientenfluss-Visualisierung

Sehen Sie wie Gradienten durch verschiedene Aktivierungsfunktionen fliessen

Backpropagation-Formel

∂L/∂w_i = ∂L/∂y · f'(z) · x_i

Wenn f'(z) ~ 0, verschwindet der Gradient!

Gradientenstabilitaets-Vergleich

Funktion	Grosses \|z\| Gradient	z=0 Gradient
Sigmoid	≈0 (vanishing)	0.25
Tanh	≈0 (vanishing)	1.0
ReLU	1 (for z>0)	0 or 1
Swish	Smooth non-zero	0.5
GELU	Smooth non-zero	0.5

Ausdrucksstaerke

ReLU family: Stueckweise lineare Annaeherung

GELU/Swish: Glatte nichtlineare Annaeherung

Von einem Neuron zu Tiefen Netzen

Vergleichen Sie rein lineare Netze mit Netzen mit nichtlinearen Aktivierungen

Mehrschicht-Komposition

h^(l) = f(W^(l)·h^(l-1) + b^(l))

Netzwerktyp

Anzahl der Schichten

Schichten:

Zielfunktion

Universeller Approximationssatz

Ein Feedforward-Netz mit mindestens einer verborgenen Schicht kann jede stetige Funktion auf kompakten Teilmengen von R^n approximieren

Verborgene Schichten

Standard: ReLU

Transformer: GELU / Swish

Ausgabeschichten

Aufgabe	Aktivierung
Binaere Klassifikation	Sigmoid
Mehrklassen-Klassifikation	Softmax
Regression	Linear (keine)

Initialisierungs-Abstimmung

ReLU → He Initialization

Tanh/Sigmoid → Xavier Initialization

Kombinationstechniken

Aktivierung + BatchNorm fuer stabiles Training
Residuelle Verbindung + ReLU/GELU fuer tiefe Netze
LayerNorm + GELU fuer Transformers

Konzeptionelles Verstaendnis

Gewichte

Lernen "was zu betrachten"

Bias

Lernen "Schwellenwert"

Aktivierung

Lernen "wie zu reagieren"

Neuron = Lernbarer Merkmalstransformator mit nichtlinearer Gatterung

Einzeilige Zusammenfassung

Das Perceptron ist die atomare Struktur neuronaler Netze

Aktivierungsfunktionen bestimmen ob Netze komplexe Muster lernen koennen

ReLU machte Deep Learning wirklich trainierbar

GELU/Swish machen grosse Modelle stabiler und leistungsfaehiger