Персептрон/Нейрон - Фундаментальная единица глубокого обучения

Интерактивная визуализация персептрона, функций активации и основ нейронных сетей

Фрэнк Розенблатт, 1958 - Атомная структура нейронных сетей

Базовая форма персептрона

Настройте веса и смещение, чтобы увидеть, как персептрон вычисляет выход

Скалярная форма: y = f(∑w_ix_i + b)

Векторная форма: y = f(w^Tx + b)

Входы (x)

x₁: 1.0

x₂: 0.5

x₃: -0.3

Веса (w)

w₁: 0.5

w₂: -0.3

w₃: 0.8

Смещение (b)

b: 0.1

Функция активации

Вычисление

Взвешенная сумма (z): 0.55

Выход (y): 0.63

Почему необходимы функции активации

Без функций активации нейронные сети остаются линейными независимо от глубины

Ключевой инсайт

Линейная композиция линейного = линейное

f(g(x)) = ax + b, where both are linear

Три основные цели

1 Ввести нелинейность для изучения сложных паттернов

2 Контролировать числовой диапазон выходов

3 Обеспечить дифференцируемость для обратного распространения

История развития

1958 Step Function (Rosenblatt)

1980s Sigmoid/Tanh

2011 ReLU (Revolution)

2017+ Swish/GELU

Галерея функций активации

Сравните различные функции активации и их производные

Детали функции

Формула: f(z) = 1/(1+e^(-z))

Диапазон: (0, 1)

Производная: f'(z) = f(z)(1-f(z))

Преимущества: Smooth, differentiable, probabilistic interpretation

Недостатки: Gradient vanishing, non-zero centered

Калькулятор в реальном времени

Вход z:

Визуализация потока градиента

Посмотрите, как градиенты распространяются через различные функции активации

Формула обратного распространения

∂L/∂w_i = ∂L/∂y · f'(z) · x_i

Если f'(z) ~ 0, градиент исчезает!

Сравнение стабильности градиента

Функция	Градиент при большом \|z\|	Градиент при z=0
Sigmoid	≈0 (vanishing)	0.25
Tanh	≈0 (vanishing)	1.0
ReLU	1 (for z>0)	0 or 1
Swish	Smooth non-zero	0.5
GELU	Smooth non-zero	0.5

Выразительность

ReLU family: Кусочно-линейная аппроксимация

GELU/Swish: Гладкая нелинейная аппроксимация

От одного нейрона к глубоким сетям

Сравните чисто линейные сети с сетями с нелинейными активациями

Многослойная композиция

h^(l) = f(W^(l)·h^(l-1) + b^(l))

Тип сети

Количество слоев

Слои:

Целевая функция

Теорема универсальной аппроксимации

Сеть прямого распространения с минимум одним скрытым слоем может аппроксимировать любую непрерывную функцию на компактных подмножествах R^n

Скрытые слои

По умолчанию: ReLU

Трансформер: GELU / Swish

Выходные слои

Задача	Активация
Бинарная классификация	Sigmoid
Многоклассовая классификация	Softmax
Регрессия	Линейная (нет)

Соответствие инициализации

ReLU → He Initialization

Tanh/Sigmoid → Xavier Initialization

Техники комбинирования

Активация + BatchNorm для стабильного обучения
Остаточное соединение + ReLU/GELU для глубоких сетей
LayerNorm + GELU для Трансформеров

Концептуальное понимание

Веса

Узнать "на что смотреть"

Смещение

Узнать "порог"

Активация

Узнать "как реагировать"

Нейрон = Обучаемый преобразователь признаков с нелинейным стробированием

Резюме в одной строке

Персептрон - это атомная структура нейронных сетей

Функции активации определяют, могут ли сети изучать сложные паттерны

ReLU сделала глубокое обучение действительно обучаемым

GELU/Swish делают большие модели более стабильными и мощными