PCA、特征向量与协方差椭圆可视化

协方差矩阵

衡量变量如何共同变化。对于中心化数据：Σ = (1/n)XᵀX。对角线元素是方差，非对角线元素是协方差。

特征向量

最大方差的主方向。正交向量，定义了协方差椭圆的轴。第一个特征向量指向最大方差方向。

特征值

每个特征向量解释的方差量。特征值越大表示该方向方差越大。协方差椭圆半轴长度的平方。

协方差椭圆

协方差矩阵的可视化表示。展示数据分布的形状和方向。半轴与特征向量对齐，长度与√特征值成正比。

数据中心化

从每个维度减去均值：x_centered = x - μ。对于PCA围绕均值找到最大方差方向至关重要。

降维

仅保留前k个主成分可在保留最大方差的同时减少维度。重建误差 = 被丢弃特征值之和。

协方差矩阵

对于中心化数据矩阵 X，Σ = (1/n)XᵀX

特征分解

Σ 可分解为 Σ = QΛQᵀ，其中 Q 包含特征向量，Λ 是特征值对角矩阵

PCA 变换

将数据投影到主成分（旋转和可能的投影）

数据重建

仅使用 k 个主成分重建数据

解释方差比

第一主成分解释的总方差分数

协方差椭圆

1σ 协方差椭圆的参数方程（kσ 椭圆乘以 k）

1. 中心化数据

从每个维度减去均值：x_centered = x - μ。这将数据平移到以原点为中心。

2. 计算协方差矩阵

计算 Σ = (1/n)XᵀX，其中 X 是中心化数据矩阵。这捕捉了变量如何共同变化。

3. 求特征向量和特征值

求解 Σv = λv。按特征值降序排列特征向量。较大的特征值表示更大方差的方向。

4. 投影到主成分

变换数据：z = Qᵀ(x - μ)。这会旋转坐标系以与主方向对齐。

5. 可选：降维

仅保留前 k 个成分：z_k = Q_kᵀ(x - μ)。这可在保留最大方差的同时减少维度。

6. 可选：重建

从 k 个成分重建：x̂ = Q_k z_k + μ。重建误差 = 被丢弃特征值之和。

数据可视化

将高维数据投影到 2D 或 3D 进行可视化，同时保留尽可能多的方差。对于探索性数据分析至关重要。

特征提取

为机器学习提取紧凑的特征表示。用于人脸识别（特征脸）、手写识别等。

降噪

通过使用较少成分重建来去除噪声。噪声通常由较小的特征值（后面的 PC）捕获。

图像压缩

通过保留前 k 个主成分来压缩图像。在保留主要特征的同时实现显著压缩。

异常检测

通过测量重建误差来检测异常值。使用少量 PC 时，异常值的重建误差很高。

多重共线性

处理回归分析中的相关特征。PCA 转换为正交（不相关）成分。

可视化指南

当 ρ = 0（不相关）

协方差椭圆变成圆形（或轴对齐）。没有首选方向。所有方向的方差相等。特征值相等。

当 ρ > 0（正相关）

数据呈上升趋势。协方差椭圆倾斜 45°。第一个特征向量指向趋势方向。

当 ρ < 0（负相关）

数据呈下降趋势。协方差椭圆倾斜 -45°。变量之间存在反比关系。

当 |ρ| = 1（完全相关）

退化椭圆变成一条线。一个特征值接近零。数据本质上是一维的。使用 1 个 PC 完美重建。

噪声的影响

高噪声同等地增加两个特征值。使椭圆更圆。降低了降维的优势。

为什么是特征向量？

特征向量是在线性变换下不改变方向的向量。它们是数据分布的「自然轴」。

PCA、特征向量与协方差椭圆可视化

数据控制

分析结果

协方差矩阵 Σ

特征值 (λ)

特征向量

解释方差比

重建误差 (MSE)

协方差矩阵

特征向量

特征值

协方差椭圆

数据中心化

降维

协方差矩阵

特征分解

PCA 变换

数据重建

解释方差比

协方差椭圆

1. 中心化数据

2. 计算协方差矩阵

3. 求特征向量和特征值

4. 投影到主成分

5. 可选：降维

6. 可选：重建

数据可视化

特征提取

降噪

图像压缩

异常检测

多重共线性

可视化指南

当 ρ = 0（不相关）

当 ρ > 0（正相关）

当 ρ < 0（负相关）

当 |ρ| = 1（完全相关）

噪声的影响

为什么是特征向量？

图例