Interaktive Visualisierung der Hauptkomponentenanalyse, Kovarianzellipsen und Eigenvektoren zum Verständnis der Dimensionsreduktion
Misst, wie Variablen gemeinsam variieren. Für zentrierte Daten: Σ = (1/n)XᵀX. Diagonalelemente sind Varianzen, außerhalb der Diagonale Kovarianzen.
Hauptrichtungen maximaler Varianz. Orthogonale Vektoren, die die Achsen der Kovarianzellipse definieren. Der erste Eigenvektor zeigt in Richtung der maximalen Varianz.
Menge der durch jeden Eigenvektor erklärten Varianz. Größerer Eigenwert bedeutet mehr Varianz in dieser Richtung. Die Quadrate der Längen der Halbachsen der Kovarianzellipse.
Visuelle Darstellung der Kovarianzmatrix. Zeigt Form und Orientierung der Datenverteilung. Halbachsen ausgerichtet mit Eigenvektoren, Längen proportional zu √Eigenwerten.
Subtrahieren des Mittelwerts von jeder Dimension: x_centered = x - μ. Wesentlich für die PCA, um Richtungen maximaler Varianz um den Mittelwert zu finden.
Nur die ersten k Hauptkomponenten behalten reduziert Dimensionen unter Beibehaltung der maximalen Varianz. Rekonstruktionsfehler = Summe der verworfenen Eigenwerte.
Für zentrierte Datenmatrix X, Σ = (1/n)XᵀX
Σ kann zerlegt werden als Σ = QΛQᵀ wobei Q Eigenvektoren enthält und Λ diagonale Matrix der Eigenwerte ist
Projiziert Daten auf Hauptkomponenten (Rotation und möglicherweise Projektion)
Rekonstruiert Daten unter Verwendung nur von k Hauptkomponenten
Anteil der Gesamtvarianz, der durch die erste Hauptkomponente erklärt wird
Parametergleichung für Kovarianzellipse bei 1σ (mit k multiplizieren für kσ-Ellipse)
Subtrahieren Sie den Mittelwert von jeder Dimension: x_centered = x - μ. Dies verschiebt die Daten damit sie am Ursprung zentriert sind.
Berechnen Sie Σ = (1/n)XᵀX wobei X die zentrierte Datenmatrix ist. Dies erfasst, wie Variablen gemeinsam variieren.
Lösen Sie Σv = λv. Sortieren Sie Eigenvektoren nach Eigenwerten in absteigender Reihenfolge. Größere Eigenwerte deuten auf Richtungen mit mehr Varianz hin.
Daten transformieren: z = Qᵀ(x - μ). Dies rotiert das Koordinatensystem zur Ausrichtung mit Hauptrichtungen.
Nur die ersten k Komponenten behalten: z_k = Q_kᵀ(x - μ). Dies reduziert Dimensionen unter Beibehaltung der maximalen Varianz.
Aus k Komponenten rekonstruieren: x̂ = Q_k z_k + μ. Rekonstruktionsfehler = Summe der verworfenen Eigenwerte.
Projizieren von hochdimensionalen Daten auf 2D oder 3D zur Visualisierung unter Beibehaltung möglichst viel Varianz. Wesentlich für explorative Datenanalyse.
Extrahieren Sie kompakte Merkmalsdarstellungen für maschinelles Lernen. Verwendet in Gesichtserkennung (Eigenfaces), Schrifterkennung und mehr.
Rauschen durch Rekonstruktion mit weniger Komponenten entfernen. Rauschen wird typischerweise von kleineren Eigenwerten erfasst (spätere HKs).
Bilder komprimieren durch Beibehalten der ersten k Hauptkomponenten. Erzielung signifikanter Kompression unter Beibehaltung der Hauptmerkmale.
Ausreißer durch Messung des Rekonstruktionsfehlers erkennen. Anomalien haben hohen Rekonstruktionsfehler bei Verwendung weniger HKs.
Korrelierte Merkmale in der Regressionsanalyse behandeln. PCA transformiert in orthogonale (unkorrelierte) Komponenten.
Die Kovarianzellipse wird zu einem Kreis (oder achsenausgerichtet). Keine bevorzugte Richtung. Gleiche Varianz in alle Richtungen. Eigenwerte sind gleich.
Daten zeigen aufwärts. Kovarianzellipse neigt sich um 45°. Der erste Eigenvektor zeigt in Trendrichtung.
Daten zeigen abwärts. Kovarianzellipse neigt sich um -45°. Umgekehrte Beziehung zwischen Variablen.
Die degenerierte Ellipse wird zu einer Linie. Ein Eigenwert nähert sich Null. Daten sind im Wesentlichen 1D. Perfekte Rekonstruktion mit 1 HK.
Hohes Rauschen erhöht beide Eigenwerte gleichermaßen. Macht die Ellipse kreisförmiger. Reduziert den Vorteil der Dimensionsreduktion.
Eigenvektoren sind Richtungen, die ihre Richtung unter der linearen Transformation nicht ändern. Sie sind die 'natürlichen Achsen' der Datenverteilung.