无论总体分布形状如何,观察样本均值如何收敛于正态分布
给定均值为 μ、标准差为 σ 的总体,当样本量 n 增大时,样本均值 X̄ 的分布趋近于均值为 μ、标准差为 σ/√n 的正态分布,无论总体分布形状如何。这是概率论中最重要的定理之一。
中心极限定理是统计推断的基础。它解释了正态分布为何在自然界中如此普遍,并为 z 检验、置信区间和许多其他统计方法提供了理论依据。没有 CLT,大部分现代统计学将无法成立。
在大多数实际应用中,n ≥ 30 就足以使 CLT 提供良好的正态近似。但所需的 n 取决于总体的偏斜程度:对称分布收敛更快,高度偏斜的分布可能需要更大的样本量。
皮埃尔-西蒙·拉普拉斯证明了中心极限定理的第一个一般形式,表明大量独立误差之和趋向于正态分布。这一定理奠定了现代误差分析的基础。
雅尔·林德伯格和威廉·费勒为独立但非同分布随机变量的中心极限定理提供了充分必要条件,极大地推广了定理的适用范围。
从 n=1 开始:均值直方图与总体分布相同。逐步增大 n,观察钟形曲线如何浮现。注意分布宽度随 σ/√n 收缩——样本量翻倍,标准差缩小为原来的 1/√2。
尝试指数分布(极度偏斜),分别取 n=2、10、30、100 观察收敛速度。比较伯努利分布与卡方分布的收敛差异。当 n=1 时,均值直方图就是总体分布本身。