?
Исследование устойчивости к аномальным наблюдениям модификаций метода главных компонент
Рассмотрена задача редукции многомерных корре-
лированных показателей. Один из подходов к реше-
нию этой задачи основан на методе главных компо-
нент, который позволяет компактно описать вектор
с коррелированными координатами (компонента-
ми) с помощью вектора главных компонент с не-
коррелированными координатами существенно
меньшей размерности, сохраняя при этом большую
часть информации о корреляционной структуре
исходного вектора. На моделированных и реальных
данных проведено сравнение несколько модифика-
ций метода главных компонент, отличающихся
способом оценивания корреляционной матрицы
вектора наблюдений. Цель работы — демонстрация
преимущества робастных модификаций метода
главных компонент в тех случаях, когда данные
содержат аномальные значения. Для сравнения
рассматриваемых модификаций на модельных дан-
ных введена метрика, измеряющая различие оце-
ненных и истинных собственных значений корре-
ляционной матрицы исходных данных. Методом
компьютерного моделирования исследовано пове-
дение этой меры в зависимости от вероятностного
распределения наблюдений. В качестве распределе-
ний выбраны имитирующие засоренную выборку
многомерные распределения с недиагональными
корреляционными матрицами. Далее изучена вы-
борка 13 коррелированных социально-экономиче-
ских показателей по 85 странам, в которой выявлено
46 аномальных значений. Рассмотренные модифи-
кации метода главных компонент выбрали одинаковое оптимальное число главных компонент, рав-
ное трем. Однако качество сжатия реальных дан-
ных, которое определяется как доля суммарной
дисперсии исходных показателей, описываемая
первыми тремя главными компонентами, оказалась
существенно выше у робастных модификаций мето-
да главных компонент. Полученные на реальных
данных результаты хорошо согласуются с выводами
компьютерного моделирования