Visualização de PCA e Autovetores

Visualização interativa de Análise de Componentes Principais, elipses de covariância e autovetores para entender a redução de dimensionalidade

Controles de Dados

Predefinições

Resultados da Análise

Matriz de Covariância Σ

1.00 0.70
0.70 1.00

Autovalores (λ)

λ₁ (PC1): 1.70
λ₂ (PC2): 0.30
Variância Total 2.00

Autovetores

v₁ (PC1): [0.71, 0.71]
v₂ (PC2): [-0.71, 0.71]

Variância Explicada

PC1:
85%
PC2:
15%

Matriz de Covariância

Mede como as variáveis variam juntas. Para dados centralizados: Σ = (1/n)XᵀX. Elementos diagonais são variâncias, fora da diagonal são covariâncias.

Autovetores

Direções principais de variância máxima. Vetores ortogonais que definem os eixos da elipse de covariância. O primeiro autovetor aponta na direção de variância máxima.

Autovalores

Quantidade de variância explicada por cada autovetor. Maior autovalor significa mais variância nessa direção. Os quadrados dos comprimentos dos semieixos da elipse de covariância.

Elipse de Covariância

Representação visual da matriz de covariância. Mostra a forma e orientação da distribuição de dados. Semieixos alinhados com autovetores, comprimentos proporcionais a √autovalores.

Centralização de Dados

Subtrair a média de cada dimensão: x_centered = x - μ. Essencial para o PCA encontrar direções de variância máxima ao redor da média.

Redução de Dimensionalidade

Manter apenas os k primeiros componentes principais reduz dimensões preservando variância máxima. Erro de reconstrução = soma dos autovalores descartados.

Matriz de Covariância

Para matriz de dados centralizados X, Σ = (1/n)XᵀX

Decomposição em Autovalores

Σ pode ser decomposta como Σ = QΛQᵀ onde Q contém autovetores e Λ é matriz diagonal de autovalores

Transformação PCA

Projeta dados nos componentes principais (rotação e possivelmente projeção)

Reconstrução

Reconstrói dados usando apenas k componentes principais

Razão de Variância Explicada

Fração da variância total explicada pelo primeiro componente principal

Elipse de Covariância

Equação paramétrica para elipse de covariância em 1σ (multiplicar por k para elipse kσ)

1

1. Centralizar os Dados

Subtrair a média de cada dimensão: x_centered = x - μ. Isso desloca os dados para ficarem centralizados na origem.

2

2. Calcular Matriz de Covariância

Calcular Σ = (1/n)XᵀX onde X é a matriz de dados centralizados. Isso captura como as variáveis variam juntas.

3

3. Encontrar Autovetores e Autovalores

Resolver Σv = λv. Ordenar autovetores por autovalores em ordem decrescente. Maiores autovalores indicam direções de mais variância.

4

4. Projetar nos Componentes Principais

Transformar dados: z = Qᵀ(x - μ). Isso rotaciona o sistema de coordenadas para alinhar com direções principais.

5

5. Opcional: Redução de Dimensionalidade

Manter apenas os k primeiros componentes: z_k = Q_kᵀ(x - μ). Isso reduz dimensões preservando variância máxima.

6

6. Opcional: Reconstruir

Reconstruir de k componentes: x̂ = Q_k z_k + μ. Erro de reconstrução = soma dos autovalores descartados.

Visualização de Dados

Projetar dados de alta dimensão em 2D ou 3D para visualização preservando o máximo de variância possível. Essencial para análise exploratória de dados.

Extração de Características

Extrair representações compactas de características para aprendizado de máquina. Usado em reconhecimento facial (Eigenfaces), reconhecimento de escrita, etc.

Redução de Ruído

Remover ruído reconstruindo com menos componentes. Ruído tipicamente capturado por menores autovalores (CPs posteriores).

Compressão de Imagens

Comprimir imagens mantendo os k primeiros componentes principais. Alcançar compressão significativa preservando características principais.

Detecção de Anomalias

Detectar valores atípicos medindo o erro de reconstrução. Anomalias têm alto erro de reconstrução ao usar poucos CPs.

Multicolinearidade

Lidar com características correlacionadas na análise de regressão. O PCA transforma em componentes ortogonais (não correlacionados).

Guia Visual

Quando ρ = 0 (Não Correlacionado)

A elipse de covariância torna-se um círculo (ou alinhada aos eixos). Sem direção preferida. Variância igual em todas as direções. Os autovalores são iguais.

Quando ρ > 0 (Correlação Positiva)

Os dados tendem para cima. A elipse de covariância inclina 45°. O primeiro autovetor aponta na direção da tendência.

Quando ρ < 0 (Correlação Negativa)

Os dados tendem para baixo. A elipse de covariância inclina -45°. Relação inversa entre variáveis.

Quando |ρ| = 1 (Correlação Perfeita)

A elipse degenerada torna-se uma linha. Um autovalor aproxima-se de zero. Os dados são essencialmente 1D. Reconstrução perfeita com 1 CP.

Efeito do Ruído

Ruído alto aumenta ambos os autovalores igualmente. Torna a elipse mais circular. Reduz a vantagem da redução de dimensionalidade.

Por Que Autovetores?

Autovetores são direções que não mudam de direção sob a transformação linear. Eles são os 'eixos naturais' da distribuição de dados.

Legenda

Pontos de Dados
Ponto Médio
CP1 (1º Autovetor)
CP2 (2º Autovetor)
Elipses de Covariância (1σ, 2σ, 3σ)
Pontos Projetados
Pontos Reconstruídos