交互式脉冲时间依赖可塑性 (STDP) 可视化——探索精确的脉冲时序如何塑造突触权重,这是学习与记忆的神经基础
STDP 是由 Bi & Poo (1998) 发现的生物学习规则。当突触前神经元在突触后神经元之前不久放电 (Δt > 0),突触被增强(LTP——长时程增强)。当顺序反转 (Δt < 0),突触被削弱(LTD——长时程抑制)。这种时间不对称的学习窗口将 Hebb 假说(「一起放电的细胞连接在一起」)精化为精确的、具有因果意义的学习规则:突触学习突触前输入是否帮助导致了突触后放电。
STDP 权重变化遵循指数学习窗口:Δt > 0 时 ΔW = A+·exp(−Δt/τ+)(LTP),Δt < 0 时 ΔW = −A−·exp(Δt/τ−)(LTD),其中 A+、A− 是学习率幅度,τ+、τ− 是时间常数(通常约 20 ms)。不对称比 A−/A+ 控制非相关放电的净效应——通常略大于 1,作为稳态调节。权重更新以加法方式应用:w ← w + ΔW,然后限制在 [w_min, w_max] 范围内。
STDP 实现了一种因果学习原则:如果突触前活动持续先于(因此可能是原因)突触后放电,连接被加强——突触前神经元「获得功劳」。如果突触前活动在突触后放电之后(因此不可能是原因),连接被削弱。这个简单规则使网络能够学习时序序列、发展选择性并形成记忆印迹。
STDP 有深远的影响:(1) 记忆形成——海马体突触表现出 STDP,表明它支持情景记忆编码。(2) 发育——STDP 在关键期精化神经回路,塑造视觉皮层的方位选择性。(3) 类脑计算——STDP 启发的学习规则驱动 Intel Loihi、IBM TrueNorth 等类脑芯片。(4) 机器人——STDP 使自主机器人能无监督学习感觉运动关联。(5) 机器学习——STDP 原理启发了脉冲神经网络训练算法和事件驱动深度学习。
顶部面板显示 STDP 学习窗口曲线:Δt > 0 时正 ΔW(红色,LTP),Δt < 0 时负 ΔW(蓝色,LTD)。垂直虚线标记所选 Δt。中间面板追踪训练迭代中的突触权重——观察它攀升(LTP)或衰减(LTD)。底部热图显示 8 个具有不同 Δt 值的突触同时演化——注意一些增强(暖色)而另一些削弱(冷色)。
1) 设置 Δt = +10 ms,点击训练——观察 LTP 权重增加。2) 设置 Δt = −10 ms——观察 LTD 权重减少。3) 从 −50 到 +50 缓慢滑动 Δt,观察从抑制到增强的过渡。4) 尝试「不对称窗口」预设——注意 LTD 窗口更大,导致非相关脉冲的净抑制。5) 切换到「脉冲串」协议——观察更强的权重变化。6) 点击「反 Hebbian」——曲线反转!7) 重置并使用「单步」逐对推进。