感知机、激活函数和神经网络基础知识的交互式可视化
调整权重和偏置,观察感知机如何计算输出
没有激活函数,无论网络多深,都只是线性变换
线性变换的组合 = 线性变换
比较不同激活函数及其导数
观察梯度如何通过不同激活函数传播
如果 f'(z) 约等于 0,梯度消失!
| 函数 | 大 |z| 梯度 | z=0 梯度 |
|---|---|---|
| Sigmoid | ≈0 (vanishing) | 0.25 |
| Tanh | ≈0 (vanishing) | 1.0 |
| ReLU | 1 (for z>0) | 0 or 1 |
| Swish | Smooth non-zero | 0.5 |
| GELU | Smooth non-zero | 0.5 |
比较纯线性网络与带有非线性激活的网络
具有至少一个隐藏层的前馈网络可以近似任意紧致子集上的连续函数
| 任务 | 激活函数 |
|---|---|
| 二分类 | Sigmoid |
| 多分类 | Softmax |
| 回归 | 线性(无) |
学习"关注什么"
学习"阈值"
学习"如何响应"
神经元 = 带有非线性门控的可学习特征转换器
感知机是神经网络的原子结构
激活函数决定网络能否学习复杂模式
ReLU 使深度学习真正可训练
GELU/Swish 使大模型更稳定更强大