PCA、特征向量与协方差椭圆可视化

通过几何解释理解降维技术:协方差矩阵、特征分解、主成分分析与降维演示

数据控制

预设场景

分析结果

协方差矩阵 Σ

1.00 0.70
0.70 1.00

特征值 (λ)

λ₁ (PC1): 1.70
λ₂ (PC2): 0.30
总方差 2.00

特征向量

v₁ (PC1): [0.71, 0.71]
v₂ (PC2): [-0.71, 0.71]

解释方差比

PC1:
85%
PC2:
15%

协方差矩阵

衡量变量如何共同变化。对于中心化数据:Σ = (1/n)XᵀX。对角线元素是方差,非对角线元素是协方差。

特征向量

最大方差的主方向。正交向量,定义了协方差椭圆的轴。第一个特征向量指向最大方差方向。

特征值

每个特征向量解释的方差量。特征值越大表示该方向方差越大。协方差椭圆半轴长度的平方。

协方差椭圆

协方差矩阵的可视化表示。展示数据分布的形状和方向。半轴与特征向量对齐,长度与√特征值成正比。

数据中心化

从每个维度减去均值:x_centered = x - μ。对于PCA围绕均值找到最大方差方向至关重要。

降维

仅保留前k个主成分可在保留最大方差的同时减少维度。重建误差 = 被丢弃特征值之和。

协方差矩阵

对于中心化数据矩阵 X,Σ = (1/n)XᵀX

特征分解

Σ 可分解为 Σ = QΛQᵀ,其中 Q 包含特征向量,Λ 是特征值对角矩阵

PCA 变换

将数据投影到主成分(旋转和可能的投影)

数据重建

仅使用 k 个主成分重建数据

解释方差比

第一主成分解释的总方差分数

协方差椭圆

1σ 协方差椭圆的参数方程(kσ 椭圆乘以 k)

1

1. 中心化数据

从每个维度减去均值:x_centered = x - μ。这将数据平移到以原点为中心。

2

2. 计算协方差矩阵

计算 Σ = (1/n)XᵀX,其中 X 是中心化数据矩阵。这捕捉了变量如何共同变化。

3

3. 求特征向量和特征值

求解 Σv = λv。按特征值降序排列特征向量。较大的特征值表示更大方差的方向。

4

4. 投影到主成分

变换数据:z = Qᵀ(x - μ)。这会旋转坐标系以与主方向对齐。

5

5. 可选:降维

仅保留前 k 个成分:z_k = Q_kᵀ(x - μ)。这可在保留最大方差的同时减少维度。

6

6. 可选:重建

从 k 个成分重建:x̂ = Q_k z_k + μ。重建误差 = 被丢弃特征值之和。

数据可视化

将高维数据投影到 2D 或 3D 进行可视化,同时保留尽可能多的方差。对于探索性数据分析至关重要。

特征提取

为机器学习提取紧凑的特征表示。用于人脸识别(特征脸)、手写识别等。

降噪

通过使用较少成分重建来去除噪声。噪声通常由较小的特征值(后面的 PC)捕获。

图像压缩

通过保留前 k 个主成分来压缩图像。在保留主要特征的同时实现显著压缩。

异常检测

通过测量重建误差来检测异常值。使用少量 PC 时,异常值的重建误差很高。

多重共线性

处理回归分析中的相关特征。PCA 转换为正交(不相关)成分。

可视化指南

当 ρ = 0(不相关)

协方差椭圆变成圆形(或轴对齐)。没有首选方向。所有方向的方差相等。特征值相等。

当 ρ > 0(正相关)

数据呈上升趋势。协方差椭圆倾斜 45°。第一个特征向量指向趋势方向。

当 ρ < 0(负相关)

数据呈下降趋势。协方差椭圆倾斜 -45°。变量之间存在反比关系。

当 |ρ| = 1(完全相关)

退化椭圆变成一条线。一个特征值接近零。数据本质上是一维的。使用 1 个 PC 完美重建。

噪声的影响

高噪声同等地增加两个特征值。使椭圆更圆。降低了降维的优势。

为什么是特征向量?

特征向量是在线性变换下不改变方向的向量。它们是数据分布的「自然轴」。

图例

数据点
均值点
PC1(第一特征向量)
PC2(第二特征向量)
协方差椭圆(1σ、2σ、3σ)
投影点
重建点