Visualisation de l'ACP et Vecteurs Propres

Visualisation interactive de l'Analyse en Composantes Principales, ellipses de covariance et vecteurs propres pour comprendre la réduction de dimension

Contrôles des Données

Préréglages

Résultats de l'Analyse

Matrice de Covariance Σ

1.00 0.70
0.70 1.00

Valeurs Propres (λ)

λ₁ (PC1): 1.70
λ₂ (PC2): 0.30
Variance Totale 2.00

Vecteurs Propres

v₁ (PC1): [0.71, 0.71]
v₂ (PC2): [-0.71, 0.71]

Variance Expliquée

PC1:
85%
PC2:
15%

Matrice de Covariance

Mesure comment les variables varient ensemble. Pour données centrées: Σ = (1/n)XᵀX. Les éléments diagonaux sont les variances, hors diagonale sont les covariances.

Vecteurs Propres

Directions principales de variance maximale. Vecteurs orthogonaux définissant les axes de l'ellipse de covariance. Le premier vecteur propre pointe dans la direction de variance maximale.

Valeurs Propres

Quantité de variance expliquée par chaque vecteur propre. Valeur propre plus grande signifie plus de variance dans cette direction. Les carrés des longueurs des demi-axes de l'ellipse de covariance.

Ellipse de Covariance

Représentation visuelle de la matrice de covariance. Montre la forme et l'orientation de la distribution des données. Demi-axes alignés avec vecteurs propres, longueurs proportionnelles à √valeurs propres.

Centrage des Données

Soustraire la moyenne de chaque dimension: x_centered = x - μ. Essentiel pour que l'ACP trouve les directions de variance maximale autour de la moyenne.

Réduction de Dimensionnalité

Garder seulement les k premières composantes principales réduit les dimensions en préservant la variance maximale. Erreur de reconstruction = somme des valeurs propres rejetées.

Matrice de Covariance

Pour matrice de données centrées X, Σ = (1/n)XᵀX

Décomposition en Valeurs Propres

Σ peut être décomposée comme Σ = QΛQᵀ où Q contient les vecteurs propres et Λ est matrice diagonale des valeurs propres

Transformation ACP

Projette les données sur les composantes principales (rotation et éventuellement projection)

Reconstruction

Reconstruit les données en utilisant seulement k composantes principales

Ratio de Variance Expliquée

Fraction de variance totale expliquée par la première composante principale

Ellipse de Covariance

Équation paramétrique pour ellipse de covariance à 1σ (multiplier par k pour ellipse kσ)

1

1. Centrer les Données

Soustraire la moyenne de chaque dimension: x_centered = x - μ. Cela déplace les données pour être centrées à l'origine.

2

2. Calculer la Matrice de Covariance

Calculer Σ = (1/n)XᵀX où X est la matrice de données centrées. Cela capture comment les variables varient ensemble.

3

3. Trouver Vecteurs et Valeurs Propres

Résoudre Σv = λv. Trier les vecteurs propres par valeurs propres en ordre décroissant. Valeurs propres plus grandes indiquent directions de plus grande variance.

4

4. Projeter sur Composantes Principales

Transformer les données: z = Qᵀ(x - μ). Cela fait tourner le système de coordonnées pour s'aligner avec directions principales.

5

5. Optionnel: Réduction de Dimensionnalité

Garder seulement les k premières composantes: z_k = Q_kᵀ(x - μ). Cela réduit les dimensions en préservant la variance maximale.

6

6. Optionnel: Reconstruire

Reconstruire depuis k composantes: x̂ = Q_k z_k + μ. Erreur de reconstruction = somme des valeurs propres rejetées.

Visualisation de Données

Projeter des données de haute dimension en 2D ou 3D pour visualisation en préservant autant de variance que possible. Essentiel pour l'analyse exploratoire de données.

Extraction de Caractéristiques

Extraire des représentations compactes de caractéristiques pour l'apprentissage automatique. Utilisé dans la reconnaissance faciale (Eigenfaces), reconnaissance d'écriture, etc.

Réduction de Bruit

Supprimer le bruit en reconstruisant avec moins de composantes. Le bruit est typiquement capturé par les plus petites valeurs propres (CPs ultérieures).

Compression d'Images

Comprimer les images en gardant les k premières composantes principales. Atteindre une compression significative en préservant les caractéristiques principales.

Détection d'Anomalies

Détecter les valeurs aberrantes en mesurant l'erreur de reconstruction. Les anomalies ont une erreur de reconstruction élevée avec peu de CPs.

Multicolinéarité

Gérer les caractéristiques corrélées dans l'analyse de régression. L'ACP transforme en composantes orthogonales (non corrélées).

Guide Visuel

Quand ρ = 0 (Non Corrélé)

L'ellipse de covariance devient un cercle (ou alignée avec les axes). Pas de direction préférée. Variance égale dans toutes les directions. Les valeurs propres sont égales.

Quand ρ > 0 (Corrélation Positive)

Les données tendent vers le haut. L'ellipse de covariance s'incline à 45°. Le premier vecteur propre pointe dans la direction de la tendance.

Quand ρ < 0 (Corrélation Négative)

Les données tendent vers le bas. L'ellipse de covariance s'incline à -45°. Relation inverse entre variables.

Quand |ρ| = 1 (Corrélation Parfaite)

L'ellipse dégénérée devient une ligne. Une valeur propre approche zéro. Les données sont essentiellement 1D. Reconstruction parfaite avec 1 CP.

Effet du Bruit

Bruit élevé augmente les deux valeurs propres également. Rend l'ellipse plus circulaire. Réduit l'avantage de la réduction de dimensionnalité.

Pourquoi Vecteurs Propres?

Les vecteurs propres sont des directions qui ne changent pas de direction sous la transformation linéaire. Ce sont les 'axes naturels' de la distribution des données.

Légende

Points de Données
Point Moyen
CP1 (1er Vecteur Propre)
CP2 (2ème Vecteur Propre)
Ellipses de Covariance (1σ, 2σ, 3σ)
Points Projetés
Points Reconstruits