反向传播深度可视化

从历史、数学原理、推导直觉到工程实践,系统理解 BP

1. 历史与地位

1986年 Rumelhart、Hinton、Williams 将 BP 系统推广到多层网络,开启深度学习复兴。

David E. Rumelhart

论文第一作者,系统化提出多层误差反传训练流程。

Geoffrey E. Hinton

长期推动神经网络训练方法,奠定现代深度学习基础。

Ronald J. Williams

与前两者共同完成经典论文的理论和实验贡献。

2. 核心公式

关键词:链式法则 + 动态规划。每层复用后层梯度,复杂度近似线性于参数量。

3. 链式法则微型实验

设 g(x)=a·x+b, y=g(x)^2,观察 dy/dx 的变化。

4. 反向传播路径可视化

前向阶段激活节点,反向阶段传递误差。学习率影响反向传输强度和更新幅度。

等待操作

5. 梯度稳定性实验

模拟多层链式连乘,观察梯度消失/爆炸趋势。

6. 算法流程

  1. 前向计算得到预测 y_hat
  2. 计算损失 L(y_hat, y)
  3. 输出层求 delta[L]
  4. 按链式法则递推各隐藏层 delta[l]
  5. 计算 dW、db 并更新参数
  6. 进入下一轮迭代直到收敛

7. 工程要点

  • 激活函数:ReLU / GELU 优先,降低梯度消失风险
  • 初始化:He / Xavier 与激活配套
  • 稳定训练:LayerNorm / BatchNorm + 残差连接
  • 优化器:AdamW + warmup + weight decay
  • 安全措施:梯度裁剪、混合精度、监控 NaN

反向传播 = 链式法则 + 误差分配机制。没有它,就没有现代深度学习规模化训练。