PCA und Eigenvektoren Visualisierung

Interaktive Visualisierung der Hauptkomponentenanalyse, Kovarianzellipsen und Eigenvektoren zum Verständnis der Dimensionsreduktion

Datensteuerung

Voreinstellungen

Analyseergebnisse

Kovarianzmatrix Σ

1.00 0.70
0.70 1.00

Eigenwerte (λ)

λ₁ (PC1): 1.70
λ₂ (PC2): 0.30
Gesamtvarianz 2.00

Eigenvektoren

v₁ (PC1): [0.71, 0.71]
v₂ (PC2): [-0.71, 0.71]

Erklärte Varianz

PC1:
85%
PC2:
15%

Kovarianzmatrix

Misst, wie Variablen gemeinsam variieren. Für zentrierte Daten: Σ = (1/n)XᵀX. Diagonalelemente sind Varianzen, außerhalb der Diagonale Kovarianzen.

Eigenvektoren

Hauptrichtungen maximaler Varianz. Orthogonale Vektoren, die die Achsen der Kovarianzellipse definieren. Der erste Eigenvektor zeigt in Richtung der maximalen Varianz.

Eigenwerte

Menge der durch jeden Eigenvektor erklärten Varianz. Größerer Eigenwert bedeutet mehr Varianz in dieser Richtung. Die Quadrate der Längen der Halbachsen der Kovarianzellipse.

Kovarianzellipse

Visuelle Darstellung der Kovarianzmatrix. Zeigt Form und Orientierung der Datenverteilung. Halbachsen ausgerichtet mit Eigenvektoren, Längen proportional zu √Eigenwerten.

Datenzentrierung

Subtrahieren des Mittelwerts von jeder Dimension: x_centered = x - μ. Wesentlich für die PCA, um Richtungen maximaler Varianz um den Mittelwert zu finden.

Dimensionsreduktion

Nur die ersten k Hauptkomponenten behalten reduziert Dimensionen unter Beibehaltung der maximalen Varianz. Rekonstruktionsfehler = Summe der verworfenen Eigenwerte.

Kovarianzmatrix

Für zentrierte Datenmatrix X, Σ = (1/n)XᵀX

Eigenzerlegung

Σ kann zerlegt werden als Σ = QΛQᵀ wobei Q Eigenvektoren enthält und Λ diagonale Matrix der Eigenwerte ist

PCA-Transformation

Projiziert Daten auf Hauptkomponenten (Rotation und möglicherweise Projektion)

Rekonstruktion

Rekonstruiert Daten unter Verwendung nur von k Hauptkomponenten

Erklärte Varianzratio

Anteil der Gesamtvarianz, der durch die erste Hauptkomponente erklärt wird

Kovarianzellipse

Parametergleichung für Kovarianzellipse bei 1σ (mit k multiplizieren für kσ-Ellipse)

1

1. Daten Zentrieren

Subtrahieren Sie den Mittelwert von jeder Dimension: x_centered = x - μ. Dies verschiebt die Daten damit sie am Ursprung zentriert sind.

2

2. Kovarianzmatrix Berechnen

Berechnen Sie Σ = (1/n)XᵀX wobei X die zentrierte Datenmatrix ist. Dies erfasst, wie Variablen gemeinsam variieren.

3

3. Eigenvektoren und Eigenwerte Finden

Lösen Sie Σv = λv. Sortieren Sie Eigenvektoren nach Eigenwerten in absteigender Reihenfolge. Größere Eigenwerte deuten auf Richtungen mit mehr Varianz hin.

4

4. Auf Hauptkomponenten Projizieren

Daten transformieren: z = Qᵀ(x - μ). Dies rotiert das Koordinatensystem zur Ausrichtung mit Hauptrichtungen.

5

5. Optional: Dimensionsreduktion

Nur die ersten k Komponenten behalten: z_k = Q_kᵀ(x - μ). Dies reduziert Dimensionen unter Beibehaltung der maximalen Varianz.

6

6. Optional: Rekonstruieren

Aus k Komponenten rekonstruieren: x̂ = Q_k z_k + μ. Rekonstruktionsfehler = Summe der verworfenen Eigenwerte.

Datenvisualisierung

Projizieren von hochdimensionalen Daten auf 2D oder 3D zur Visualisierung unter Beibehaltung möglichst viel Varianz. Wesentlich für explorative Datenanalyse.

Merkmalsextraktion

Extrahieren Sie kompakte Merkmalsdarstellungen für maschinelles Lernen. Verwendet in Gesichtserkennung (Eigenfaces), Schrifterkennung und mehr.

Rauschreduktion

Rauschen durch Rekonstruktion mit weniger Komponenten entfernen. Rauschen wird typischerweise von kleineren Eigenwerten erfasst (spätere HKs).

Bildkompression

Bilder komprimieren durch Beibehalten der ersten k Hauptkomponenten. Erzielung signifikanter Kompression unter Beibehaltung der Hauptmerkmale.

Anomalieerkennung

Ausreißer durch Messung des Rekonstruktionsfehlers erkennen. Anomalien haben hohen Rekonstruktionsfehler bei Verwendung weniger HKs.

Multikollinearität

Korrelierte Merkmale in der Regressionsanalyse behandeln. PCA transformiert in orthogonale (unkorrelierte) Komponenten.

Visueller Leitfaden

Wenn ρ = 0 (Unkorreliert)

Die Kovarianzellipse wird zu einem Kreis (oder achsenausgerichtet). Keine bevorzugte Richtung. Gleiche Varianz in alle Richtungen. Eigenwerte sind gleich.

Wenn ρ > 0 (Positive Korrelation)

Daten zeigen aufwärts. Kovarianzellipse neigt sich um 45°. Der erste Eigenvektor zeigt in Trendrichtung.

Wenn ρ < 0 (Negative Korrelation)

Daten zeigen abwärts. Kovarianzellipse neigt sich um -45°. Umgekehrte Beziehung zwischen Variablen.

Wenn |ρ| = 1 (Perfekte Korrelation)

Die degenerierte Ellipse wird zu einer Linie. Ein Eigenwert nähert sich Null. Daten sind im Wesentlichen 1D. Perfekte Rekonstruktion mit 1 HK.

Effekt von Rauschen

Hohes Rauschen erhöht beide Eigenwerte gleichermaßen. Macht die Ellipse kreisförmiger. Reduziert den Vorteil der Dimensionsreduktion.

Warum Eigenvektoren?

Eigenvektoren sind Richtungen, die ihre Richtung unter der linearen Transformation nicht ändern. Sie sind die 'natürlichen Achsen' der Datenverteilung.

Legende

Datenpunkte
Mittelpunkt
HK1 (1. Eigenvektor)
HK2 (2. Eigenvektor)
Kovarianzellipsen (1σ, 2σ, 3σ)
Projizierte Punkte
Rekonstruierte Punkte