Visualización de PCA y Vectores Propios

Visualización interactiva del Análisis de Componentes Principales, elipses de covarianza y vectores propios para entender la reducción de dimensionalidad

Controles de Datos

Preestablecidos

Resultados del Análisis

Matriz de Covarianza Σ

1.00 0.70
0.70 1.00

Valores Propios (λ)

λ₁ (PC1): 1.70
λ₂ (PC2): 0.30
Varianza Total 2.00

Vectores Propios

v₁ (PC1): [0.71, 0.71]
v₂ (PC2): [-0.71, 0.71]

Varianza Explicada

PC1:
85%
PC2:
15%

Matriz de Covarianza

Mide cómo varían las variables juntas. Para datos centrados: Σ = (1/n)XᵀX. Los elementos diagonales son varianzas, los fuera de diagonal son covarianzas.

Vectores Propios

Direcciones principales de máxima varianza. Vectores ortogonales que definen los ejes de la elipse de covarianza. El primer vector propio apunta en la dirección de máxima varianza.

Valores Propios

Cantidad de varianza explicada por cada vector propio. Un valor propio mayor significa más varianza en esa dirección. Los cuadrados de las longitudes de los semiejes de la elipse de covarianza.

Elipse de Covarianza

Representación visual de la matriz de covarianza. Muestra la forma y orientación de la distribución de datos. Los semiejes alineados con vectores propios, longitudes proporcionales a √valores propios.

Centrado de Datos

Restar la media de cada dimensión: x_centered = x - μ. Esencial para que PCA encuentre direcciones de máxima varianza alrededor de la media.

Reducción de Dimensionalidad

Mantener solo los k componentes principales principales reduce dimensiones preservando la máxima varianza. Error de reconstrucción = suma de valores propios descartados.

Matriz de Covarianza

Para matriz de datos centrados X, Σ = (1/n)XᵀX

Descomposición en Valores Propios

Σ puede descomponerse como Σ = QΛQᵀ donde Q contiene vectores propios y Λ es matriz diagonal de valores propios

Transformación PCA

Proyecta datos sobre componentes principales (rotación y posiblemente proyección)

Reconstrucción

Reconstruye datos usando solo k componentes principales

Ratio de Varianza Explicada

Fracción de varianza total explicada por el primer componente principal

Elipse de Covarianza

Ecuación paramétrica para elipse de covarianza a 1σ (multiplicar por k para elipse kσ)

1

1. Centrar los Datos

Restar la media de cada dimensión: x_centered = x - μ. Esto desplaza los datos para que estén centrados en el origen.

2

2. Calcular Matriz de Covarianza

Calcular Σ = (1/n)XᵀX donde X es la matriz de datos centrados. Esto captura cómo varían las variables juntas.

3

3. Encontrar Vectores y Valores Propios

Resolver Σv = λv. Ordenar vectores propios por valores propios en orden descendente. Valores propios más grandes indican direcciones de más varianza.

4

4. Proyectar sobre Componentes Principales

Transformar datos: z = Qᵀ(x - μ). Esto rota el sistema de coordenadas para alinearlo con direcciones principales.

5

5. Opcional: Reducción de Dimensionalidad

Mantener solo los k componentes principales: z_k = Q_kᵀ(x - μ). Esto reduce dimensiones preservando la máxima varianza.

6

6. Opcional: Reconstruir

Reconstruir desde k componentes: x̂ = Q_k z_k + μ. Error de reconstrucción = suma de valores propios descartados.

Visualización de Datos

Proyectar datos de alta dimensión a 2D o 3D para visualización preservando la mayor varianza posible. Esencial para análisis exploratorio de datos.

Extracción de Características

Extraer representaciones compactas de características para aprendizaje automático. Usado en reconocimiento facial (Eigenfaces), reconocimiento de escritura, etc.

Reducción de Ruido

Eliminar ruido reconstruyendo con menos componentes. El ruido típicamente es capturado por valores propios más pequeños (PCs posteriores).

Compresión de Imágenes

Comprimir imágenes manteniendo los k componentes principales principales. Lograr compresión significativa preservando características principales.

Detección de Anomalías

Detectar valores atípicos midiendo el error de reconstrucción. Las anomalías tienen alto error de reconstrucción al usar pocos PCs.

Multicolinealidad

Manejar características correlacionadas en análisis de regresión. PCA transforma a componentes ortogonales (no correlacionados).

Guía Visual

Cuando ρ = 0 (Sin Correlación)

La elipse de covarianza se vuelve un círculo (o alineado con ejes). Sin dirección preferida. Varianza igual en todas direcciones. Los valores propios son iguales.

Cuando ρ > 0 (Correlación Positiva)

Los datos tienden hacia arriba. La elipse de covarianza se inclina 45°. El primer vector propio apunta en la dirección de la tendencia.

Cuando ρ < 0 (Correlación Negativa)

Los datos tienden hacia abajo. La elipse de covarianza se inclina -45°. Relación inversa entre variables.

Cuando |ρ| = 1 (Correlación Perfecta)

La elipse degenerada se convierte en una línea. Un valor propio se acerca a cero. Los datos son esencialmente 1D. Reconstrucción perfecta con 1 PC.

Efecto del Ruido

Alto ruido aumenta ambos valores propios por igual. Hace la elipse más circular. Reduce la ventaja de la reducción de dimensionalidad.

¿Por Qué Vectores Propios?

Los vectores propios son direcciones que no cambian de dirección bajo la transformación lineal. Son los 'ejes naturales' de la distribución de datos.

Leyenda

Puntos de Datos
Punto de Media
PC1 (1er Vector Propio)
PC2 (2do Vector Propio)
Elipses de Covarianza (1σ, 2σ, 3σ)
Puntos Proyectados
Puntos Reconstruidos