Интерактивная визуализация анализа главных компонент, ковариационных эллипсов и собственных векторов для понимания снижения размерности
Измеряет, как переменные изменяются вместе. Для центрированных данных: Σ = (1/n)XᵀX. Диагональные элементы - дисперсии, вне диагонали - ковариации.
Главные направления максимальной дисперсии. Ортогональные векторы, определяющие оси ковариационного эллипса. Первый собственный вектор указывает направление максимальной дисперсии.
Количество дисперсии, объясняемой каждым собственным вектором. Большее собственное значение означает больше дисперсии в этом направлении. Квадраты длин полуосей ковариационного эллипса.
Визуальное представление ковариационной матрицы. Показывает форму и ориентацию распределения данных. Полуоси выровнены с собственными векторами, длины пропорциональны √собственных значений.
Вычитание среднего из каждого измерения: x_centered = x - μ. Необходимо для PCA для нахождения направлений максимальной дисперсии вокруг среднего.
Сохранение только первых k главных компонентов снижает размерность при сохранении максимальной дисперсии. Ошибка реконструкции = сумма отброшенных собственных значений.
Для центрированной матрицы данных X, Σ = (1/n)XᵀX
Σ можно разложить как Σ = QΛQᵀ, где Q содержит собственные векторы, а Λ - диагональная матрица собственных значений
Проецирует данные на главные компоненты (вращение и возможно проекция)
Реконструирует данные, используя только k главных компонентов
Доля общей дисперсии, объясняемая первым главным компонентом
Параметрическое уравнение для ковариационного эллипса при 1σ (умножить на k для kσ эллипса)
Вычесть среднее из каждого измерения: x_centered = x - μ. Это сдвигает данные к центру в начале координат.
Вычислить Σ = (1/n)XᵀX, где X - центрированная матрица данных. Это захватывает, как переменные изменяются вместе.
Решить Σv = λv. Отсортировать собственные векторы по собственным значениям в порядке убывания. Большие собственные значения указывают направления с большей дисперсией.
Преобразовать данные: z = Qᵀ(x - μ). Это вращает систему координат для выравнивания с главными направлениями.
Сохранить только первые k компонентов: z_k = Q_kᵀ(x - μ). Это снижает размерности при сохранении максимальной дисперсии.
Реконструировать из k компонентов: x̂ = Q_k z_k + μ. Ошибка реконструкции = сумма отброшенных собственных значений.
Проекция многомерных данных на 2D или 3D для визуализации с сохранением максимальной дисперсии. Необходимо для исследовательского анализа данных.
Извлечение компактных представлений признаков для машинного обучения. Используется в распознавании лиц (Eigenfaces), распознавании рукописного текста и др.
Удаление шума путём реконструкции с меньшим количеством компонентов. Шум обычно захватывается меньшими собственными значениями (поздние ГК).
Сжатие изображений путём сохранения первых k главных компонентов. Достижение значительного сжатия при сохранении основных признаков.
Обнаружение выбросов путём измерения ошибки реконструкции. Аномалии имеют высокую ошибку реконструкции при использовании нескольких ГК.
Обработка коррелированных признаков в регрессионном анализе. PCA преобразует в ортогональные (некоррелированные) компоненты.
Ковариационный эллипс становится кругом (или выровнен по осям). Нет предпочтительного направления. Равная дисперсия во всех направлениях. Собственные значения равны.
Данные имеют восходящий тренд. Ковариационный эллипс наклонён на 45°. Первый собственный вектор указывает в направлении тренда.
Данные имеют нисходящий тренд. Ковариационный эллипс наклонён на -45°. Обратная зависимость между переменными.
Вырожденный эллипс становится линией. Одно собственное значение приближается к нулю. Данные по существу одномерные. Идеальная реконструкция с 1 ГК.
Высокий шум одинаково увеличивает оба собственных значения. Делает эллипс более круглым. Снижает преимущество снижения размерности.
Собственные векторы - это направления, которые не меняют направление при линейном преобразовании. Они являются 'естественными осями' распределения данных.