多层感知机 - 深度学习的基础
观察数据在输入层、隐藏层和输出层中的流动
FFNN:信息只沿前向流动(输入 -> 隐藏 -> 输出),没有环路
查看每层如何变换数据:线性变换 + 非线性激活
没有激活函数:y = W2(W1x) = (W2W1)x 仍是线性!无法学习复杂模式。
比较不同激活函数及其梯度
| 函数 | 优点 | 问题 |
|---|---|---|
| Sigmoid | 平滑 | 梯度消失 |
| Tanh | 零中心 | 梯度消失 |
| ReLU | 简单、快速 | 神经元死亡 |
| Leaky ReLU | 不易死亡 | 需调 alpha |
| GELU | 平滑、有理论支持 | 计算复杂 |
MLP 可以在紧致子集上逼近任意连续函数
含有限隐藏神经元的单隐藏层前馈网络可以逼近 R^n 紧致子集上的任意连续函数
第1层:将空间切分为区域。更深层:通过复合形成复杂决策边界。
观察梯度如何在网络中反向流动
W <- W - lr * dL/dW
每个梯度都由局部梯度与上游梯度相乘得到(链式法则)
理解为什么每个 Transformer Block 都包含 MLP/FFN
MLP = 多次 "线性变换 + 非线性激活" 复合 = 通用函数逼近器