通过几何解释理解降维技术:协方差矩阵、特征分解、主成分分析与降维演示
衡量变量如何共同变化。对于中心化数据:Σ = (1/n)XᵀX。对角线元素是方差,非对角线元素是协方差。
最大方差的主方向。正交向量,定义了协方差椭圆的轴。第一个特征向量指向最大方差方向。
每个特征向量解释的方差量。特征值越大表示该方向方差越大。协方差椭圆半轴长度的平方。
协方差矩阵的可视化表示。展示数据分布的形状和方向。半轴与特征向量对齐,长度与√特征值成正比。
从每个维度减去均值:x_centered = x - μ。对于PCA围绕均值找到最大方差方向至关重要。
仅保留前k个主成分可在保留最大方差的同时减少维度。重建误差 = 被丢弃特征值之和。
对于中心化数据矩阵 X,Σ = (1/n)XᵀX
Σ 可分解为 Σ = QΛQᵀ,其中 Q 包含特征向量,Λ 是特征值对角矩阵
将数据投影到主成分(旋转和可能的投影)
仅使用 k 个主成分重建数据
第一主成分解释的总方差分数
1σ 协方差椭圆的参数方程(kσ 椭圆乘以 k)
从每个维度减去均值:x_centered = x - μ。这将数据平移到以原点为中心。
计算 Σ = (1/n)XᵀX,其中 X 是中心化数据矩阵。这捕捉了变量如何共同变化。
求解 Σv = λv。按特征值降序排列特征向量。较大的特征值表示更大方差的方向。
变换数据:z = Qᵀ(x - μ)。这会旋转坐标系以与主方向对齐。
仅保留前 k 个成分:z_k = Q_kᵀ(x - μ)。这可在保留最大方差的同时减少维度。
从 k 个成分重建:x̂ = Q_k z_k + μ。重建误差 = 被丢弃特征值之和。
将高维数据投影到 2D 或 3D 进行可视化,同时保留尽可能多的方差。对于探索性数据分析至关重要。
为机器学习提取紧凑的特征表示。用于人脸识别(特征脸)、手写识别等。
通过使用较少成分重建来去除噪声。噪声通常由较小的特征值(后面的 PC)捕获。
通过保留前 k 个主成分来压缩图像。在保留主要特征的同时实现显著压缩。
通过测量重建误差来检测异常值。使用少量 PC 时,异常值的重建误差很高。
处理回归分析中的相关特征。PCA 转换为正交(不相关)成分。
协方差椭圆变成圆形(或轴对齐)。没有首选方向。所有方向的方差相等。特征值相等。
数据呈上升趋势。协方差椭圆倾斜 45°。第一个特征向量指向趋势方向。
数据呈下降趋势。协方差椭圆倾斜 -45°。变量之间存在反比关系。
退化椭圆变成一条线。一个特征值接近零。数据本质上是一维的。使用 1 个 PC 完美重建。
高噪声同等地增加两个特征值。使椭圆更圆。降低了降维的优势。
特征向量是在线性变换下不改变方向的向量。它们是数据分布的「自然轴」。