Персептрон/Нейрон - Фундаментальная единица глубокого обучения

Интерактивная визуализация персептрона, функций активации и основ нейронных сетей

Фрэнк Розенблатт, 1958 - Атомная структура нейронных сетей

Базовая форма персептрона

Настройте веса и смещение, чтобы увидеть, как персептрон вычисляет выход

Скалярная форма: y = f(∑wixi + b)
Векторная форма: y = f(wTx + b)

Входы (x)

Веса (w)

Смещение (b)

Функция активации

Вычисление

Взвешенная сумма (z): 0.55
Выход (y): 0.63

Почему необходимы функции активации

Без функций активации нейронные сети остаются линейными независимо от глубины

Ключевой инсайт

Линейная композиция линейного = линейное

f(g(x)) = ax + b, where both are linear

Три основные цели

1 Ввести нелинейность для изучения сложных паттернов
2 Контролировать числовой диапазон выходов
3 Обеспечить дифференцируемость для обратного распространения

История развития

1958 Step Function (Rosenblatt)
1980s Sigmoid/Tanh
2011 ReLU (Revolution)
2017+ Swish/GELU

Галерея функций активации

Сравните различные функции активации и их производные

Детали функции

Формула: f(z) = 1/(1+e^(-z))
Диапазон: (0, 1)
Производная: f'(z) = f(z)(1-f(z))
Преимущества: Smooth, differentiable, probabilistic interpretation
Недостатки: Gradient vanishing, non-zero centered

Калькулятор в реальном времени

Визуализация потока градиента

Посмотрите, как градиенты распространяются через различные функции активации

Формула обратного распространения

∂L/∂wi = ∂L/∂y · f'(z) · xi

Если f'(z) ~ 0, градиент исчезает!

Сравнение стабильности градиента

Функция Градиент при большом |z| Градиент при z=0
Sigmoid ≈0 (vanishing) 0.25
Tanh ≈0 (vanishing) 1.0
ReLU 1 (for z>0) 0 or 1
Swish Smooth non-zero 0.5
GELU Smooth non-zero 0.5

Выразительность

ReLU family: Кусочно-линейная аппроксимация
GELU/Swish: Гладкая нелинейная аппроксимация

От одного нейрона к глубоким сетям

Сравните чисто линейные сети с сетями с нелинейными активациями

Многослойная композиция

h(l) = f(W(l)·h(l-1) + b(l))

Тип сети

Количество слоев

Целевая функция

Теорема универсальной аппроксимации

Сеть прямого распространения с минимум одним скрытым слоем может аппроксимировать любую непрерывную функцию на компактных подмножествах R^n

Скрытые слои

По умолчанию: ReLU
Трансформер: GELU / Swish

Выходные слои

Задача Активация
Бинарная классификация Sigmoid
Многоклассовая классификация Softmax
Регрессия Линейная (нет)

Соответствие инициализации

ReLU He Initialization
Tanh/Sigmoid Xavier Initialization

Техники комбинирования

  • Активация + BatchNorm для стабильного обучения
  • Остаточное соединение + ReLU/GELU для глубоких сетей
  • LayerNorm + GELU для Трансформеров

Концептуальное понимание

Веса

Узнать "на что смотреть"

Смещение

Узнать "порог"

Активация

Узнать "как реагировать"

Нейрон = Обучаемый преобразователь признаков с нелинейным стробированием

Резюме в одной строке

Персептрон - это атомная структура нейронных сетей

Функции активации определяют, могут ли сети изучать сложные паттерны

ReLU сделала глубокое обучение действительно обучаемым

GELU/Swish делают большие модели более стабильными и мощными