Многослойный перцептрон - основа глубокого обучения
Наблюдайте поток данных через входной, скрытые и выходной слои
FFNN: Информация идёт только вперёд (Input -> Hidden -> Output), без петель и циклов
Смотрите, как каждый слой преобразует данные: Линейное + нелинейная активация
Без активации: y = W2(W1x) = (W2W1)x остаётся линейной! Нельзя выучить сложные шаблоны.
Сравните разные функции активации и их градиенты
| Функция | Плюсы | Проблемы |
|---|---|---|
| Sigmoid | Гладкая | Затухание |
| Tanh | С центрированием к нулю | Затухание |
| ReLU | Простая, быстрая | Мёртвые нейроны |
| Leaky ReLU | Без мёртвых | Настроить alpha |
| GELU | Гладкая, теория | Сложная |
MLP может аппроксимировать любую непрерывную функцию на компактных подмножествах
Сеть feedforward с одним скрытым слоем и конечным числом нейронов может аппроксимировать любую непрерывную функцию на компактных подмножествах R^n
Слой 1: Делит пространство на области. Более глубокие слои: Формируют сложные границы решений через композицию.
Наблюдайте, как градиенты текут назад через сеть
W <- W - lr * dL/dW
Каждый градиент вычисляется умножением локального градиента на градиент сверху (правило цепочки)
Почему каждый блок Transformer содержит MLP/FFN
MLP = Многократные композиции "Линейное преобразование + Нелинейная активация" = универсальный аппроксиматор функций