Визуализация PCA и Собственных Векторов

Интерактивная визуализация анализа главных компонент, ковариационных эллипсов и собственных векторов для понимания снижения размерности

Управление Данными

Корреляция (ρ) 0.7

Шум (σ) 0.5

Размер Выборки (n) 300

Пресеты

Показать Центрированные Данные

Показать Проекции

Показать Реконструкцию

Компоненты (k) 2

Результаты Анализа

Ковариационная Матрица Σ

1.00 0.70

0.70 1.00

Собственные Значения (λ)

λ₁ (PC1): 1.70

λ₂ (PC2): 0.30

Общая Дисперсия 2.00

Собственные Векторы

v₁ (PC1): [0.71, 0.71]

v₂ (PC2): [-0.71, 0.71]

Объяснённая Дисперсия

PC1:

85%

PC2:

15%

Ошибка Реконструкции (MSE)

0.00

Ковариационная Матрица

Измеряет, как переменные изменяются вместе. Для центрированных данных: Σ = (1/n)XᵀX. Диагональные элементы - дисперсии, вне диагонали - ковариации.

Собственные Векторы

Главные направления максимальной дисперсии. Ортогональные векторы, определяющие оси ковариационного эллипса. Первый собственный вектор указывает направление максимальной дисперсии.

Собственные Значения

Количество дисперсии, объясняемой каждым собственным вектором. Большее собственное значение означает больше дисперсии в этом направлении. Квадраты длин полуосей ковариационного эллипса.

Ковариационный Эллипс

Визуальное представление ковариационной матрицы. Показывает форму и ориентацию распределения данных. Полуоси выровнены с собственными векторами, длины пропорциональны √собственных значений.

Центрирование Данных

Вычитание среднего из каждого измерения: x_centered = x - μ. Необходимо для PCA для нахождения направлений максимальной дисперсии вокруг среднего.

Снижение Размерности

Сохранение только первых k главных компонентов снижает размерность при сохранении максимальной дисперсии. Ошибка реконструкции = сумма отброшенных собственных значений.

Ковариационная Матрица

Для центрированной матрицы данных X, Σ = (1/n)XᵀX

Разложение по Собственным Векторам

Σ можно разложить как Σ = QΛQᵀ, где Q содержит собственные векторы, а Λ - диагональная матрица собственных значений

PCA Преобразование

Проецирует данные на главные компоненты (вращение и возможно проекция)

Реконструкция

Реконструирует данные, используя только k главных компонентов

Коэффициент Объяснённой Дисперсии

Доля общей дисперсии, объясняемая первым главным компонентом

Ковариационный Эллипс

Параметрическое уравнение для ковариационного эллипса при 1σ (умножить на k для kσ эллипса)

1. Центрировать Данные

Вычесть среднее из каждого измерения: x_centered = x - μ. Это сдвигает данные к центру в начале координат.

2. Вычислить Ковариационную Матрицу

Вычислить Σ = (1/n)XᵀX, где X - центрированная матрица данных. Это захватывает, как переменные изменяются вместе.

3. Найти Собственные Векторы и Значения

Решить Σv = λv. Отсортировать собственные векторы по собственным значениям в порядке убывания. Большие собственные значения указывают направления с большей дисперсией.

4. Спроектировать на Главные Компоненты

Преобразовать данные: z = Qᵀ(x - μ). Это вращает систему координат для выравнивания с главными направлениями.

5. Опционально: Снижение Размерности

Сохранить только первые k компонентов: z_k = Q_kᵀ(x - μ). Это снижает размерности при сохранении максимальной дисперсии.

6. Опционально: Реконструировать

Реконструировать из k компонентов: x̂ = Q_k z_k + μ. Ошибка реконструкции = сумма отброшенных собственных значений.

Визуализация Данных

Проекция многомерных данных на 2D или 3D для визуализации с сохранением максимальной дисперсии. Необходимо для исследовательского анализа данных.

Извлечение Признаков

Извлечение компактных представлений признаков для машинного обучения. Используется в распознавании лиц (Eigenfaces), распознавании рукописного текста и др.

Подавление Шума

Удаление шума путём реконструкции с меньшим количеством компонентов. Шум обычно захватывается меньшими собственными значениями (поздние ГК).

Сжатие Изображений

Сжатие изображений путём сохранения первых k главных компонентов. Достижение значительного сжатия при сохранении основных признаков.

Обнаружение Аномалий

Обнаружение выбросов путём измерения ошибки реконструкции. Аномалии имеют высокую ошибку реконструкции при использовании нескольких ГК.

Мультиколлинеарность

Обработка коррелированных признаков в регрессионном анализе. PCA преобразует в ортогональные (некоррелированные) компоненты.

Визуальное Руководство

Когда ρ = 0 (Некоррелированные)

Ковариационный эллипс становится кругом (или выровнен по осям). Нет предпочтительного направления. Равная дисперсия во всех направлениях. Собственные значения равны.

Когда ρ > 0 (Положительная Корреляция)

Данные имеют восходящий тренд. Ковариационный эллипс наклонён на 45°. Первый собственный вектор указывает в направлении тренда.

Когда ρ < 0 (Отрицательная Корреляция)

Данные имеют нисходящий тренд. Ковариационный эллипс наклонён на -45°. Обратная зависимость между переменными.

Когда |ρ| = 1 (Идеальная Корреляция)

Вырожденный эллипс становится линией. Одно собственное значение приближается к нулю. Данные по существу одномерные. Идеальная реконструкция с 1 ГК.

Влияние Шума

Высокий шум одинаково увеличивает оба собственных значения. Делает эллипс более круглым. Снижает преимущество снижения размерности.

Почему Собственные Векторы?

Собственные векторы - это направления, которые не меняют направление при линейном преобразовании. Они являются 'естественными осями' распределения данных.

Легенда

Точки Данных

Средняя Точка

ГК1 (1-й Собственный Вектор)

ГК2 (2-й Собственный Вектор)

Ковариационные Эллипсы (1σ, 2σ, 3σ)

Спроектированные Точки

Реконструированные Точки