神经元/感知机 - 深度学习的基本计算单元

感知机、激活函数和神经网络基础知识的交互式可视化

Frank Rosenblatt, 1958 - 神经网络的原子结构

感知机基本形式

调整权重和偏置,观察感知机如何计算输出

标量形式: y = f(∑wixi + b)
向量形式: y = f(wTx + b)

输入 (x)

权重 (w)

偏置 (b)

激活函数

计算过程

加权和 (z): 0.55
输出 (y): 0.63

为什么必须要有激活函数

没有激活函数,无论网络多深,都只是线性变换

核心洞察

线性变换的组合 = 线性变换

f(g(x)) = ax + b, where both are linear

三个核心目的

1 引入非线性,学习复杂模式
2 控制输出的数值范围
3 提供可微性,支持反向传播

演变历史

1958 Step Function (Rosenblatt)
1980s Sigmoid/Tanh
2011 ReLU (Revolution)
2017+ Swish/GELU

激活函数画廊

比较不同激活函数及其导数

函数详情

公式: f(z) = 1/(1+e^(-z))
范围: (0, 1)
导数: f'(z) = f(z)(1-f(z))
优点: Smooth, differentiable, probabilistic interpretation
缺点: Gradient vanishing, non-zero centered

实时计算器

梯度流可视化

观察梯度如何通过不同激活函数传播

反向传播公式

∂L/∂wi = ∂L/∂y · f'(z) · xi

如果 f'(z) 约等于 0,梯度消失!

梯度稳定性对比

函数 大 |z| 梯度 z=0 梯度
Sigmoid ≈0 (vanishing) 0.25
Tanh ≈0 (vanishing) 1.0
ReLU 1 (for z>0) 0 or 1
Swish Smooth non-zero 0.5
GELU Smooth non-zero 0.5

表达能力

ReLU family: 分段线性近似
GELU/Swish: 平滑非线性近似

从单神经元到深度网络

比较纯线性网络与带有非线性激活的网络

多层组合

h(l) = f(W(l)·h(l-1) + b(l))

网络类型

层数

目标函数

万能近似定理

具有至少一个隐藏层的前馈网络可以近似任意紧致子集上的连续函数

隐藏层

默认选择: ReLU
Transformer: GELU / Swish

输出层

任务 激活函数
二分类 Sigmoid
多分类 Softmax
回归 线性(无)

初始化匹配

ReLU He Initialization
Tanh/Sigmoid Xavier Initialization

组合技术

  • 激活函数 + BatchNorm 用于稳定训练
  • 残差连接 + ReLU/GELU 用于深层网络
  • LayerNorm + GELU 用于 Transformer

概念理解

权重

学习"关注什么"

偏置

学习"阈值"

激活

学习"如何响应"

神经元 = 带有非线性门控的可学习特征转换器

一句话总结

感知机是神经网络的原子结构

激活函数决定网络能否学习复杂模式

ReLU 使深度学习真正可训练

GELU/Swish 使大模型更稳定更强大