Метод главных компонент заключается в том что. Метод главных компонент. Примеры анализа данных размерностей

Главные компоненты

5.1 Методы множественной регрессии и канонической корреляции предполагают разбиение имеющегося набора признаков на две части. Однако, далеко не всегда такое разбиение может быть объективно хорошо обоснованным, в связи с чем возникает необходимость в таких подходах к анализу взаимосвязей показателей, которые предполагали бы рассмотрение вектора признаков как единого целого. Разумеется, при реализации подобных подходов в этой батарее признаков может быть обнаружена определенная неоднородность, когда объективно выявятся несколько групп переменных. Для признаков из одной такой группы взаимные корреляции будут гораздо выше по сравнению с сочетаниями показателей из разных групп. Однако, эта группировка будет опираться на результаты объективного анализа данных, а - не на априорные произвольные соображения исследователя.

5.2 При изучении корреляционных связей внутри некоторого единого набора m признаков


X "= X 1 X 2 X 3 ... X m

можно воспользоваться тем же самым способом, который применялся в множественном регрессионном анализе и методе канонических корреляций - получением новых переменных, вариация которых полно отражает существование многомерных корреляций.

Целью рассмотрения внутригрупповых связей единого набора признаков является определение и наглядное представление объективно существующих основных направлений соотносительной вариации этих переменных. Поэтому, для этих целей можно ввести некие новые переменные Y i , находимые как линейные комбинации исходного набора признаков X

Y 1 = b 1 "X = b 11 X 1 + b 12 X 2 + b 13 X 3 + ... + b 1m X m

Y 2 = b 2 "X = b 21 X 1 + b 22 X 2 + b 23 X 3 + ... + b 2m X m

Y 3 = b 3 "X = b 31 X 1 + b 32 X 2 + b 33 X 3 + ... + b 3m X m (5.1)

... ... ... ... ... ... ...

Y m = b m "X = b m1 X 1 + b m2 X 2 + b m3 X 3 + ... + b m m X m

и обладающие рядом желательных свойств. Пусть для определенности число новых признаков равно числу исходных показателей (m).

Одним из таких желательных оптимальных свойств может быть взаимная некор-релированность новых переменных, то есть диагональный вид их ковариационной матрицы

S y1 2 0 0 ... 0

0 s y2 2 0 ... 0

S y = 0 0 s y3 2 ... 0 , (5.2)

... ... ... ... ...

0 0 0 … s ym 2

где s yi 2 - дисперсия i-го нового признака Y i . Некоррелированность новых переменных кроме своего очевидного удобства имеет важное свойство - каждый новый признак Y i будет учитывать только свою независимую часть информации об изменчивости и коррелированности исходных показателей X.

Вторым необходимым свойством новых признаков является упорядоченный учет вариации исходных показателей. Так, пусть первая новая переменная Y 1 будет учитывать максимальную долю суммарной вариации признаков X. Это, как мы позже увидим, равносильно требованию того, чтобы Y 1 имела бы максимально возможную дисперсию s y1 2 . С учетом равенства (1.17) это условие может быть записано в виде

s y1 2 = b 1 "Sb 1 = max , (5.3)

где S - ковариационная матрица исходных признаков X, b 1 - вектор, включающий коэффициенты b 11 , b 12 , b 13 , ..., b 1m при помощи которых, по значениям X 1 , X 2 , X 3 , ..., X m можно получить значение Y 1 .

Пусть вторая новая переменная Y 2 описывает максимальную часть того компонента суммарной вариации, который остался после учета наибольшей его доли в изменчивости первого нового признака Y 1 . Для достижения этого необходимо выполнение условия

s y2 2 = b 2 "Sb 2 = max , (5.4)

при нулевой связи Y 1 с Y 2 , (т.е. r y1y2 = 0) и при s y1 2 > s y2 2 .

Аналогичным образом, третий новый признак Y 3 должен описывать третью по степени важности часть вариации исходных признаков, для чего его дисперсия должна быть также максимальной

s y3 2 = b 3 "Sb 3 = max , (5.5)

при условиях, что Y 3 нескоррелирован с первыми двумя новыми признаками Y 1 и Y 2 (т.е. r y1y3 = 0, r y2y3 = 0) и s y1 2 > s y2 > s y3 2 .

Таким образом, для дисперсий всех новых переменных характерна упорядоченность по величине

s y1 2 > s y2 2 > s y3 2 > ... > s y m 2 . (5.6)

5.3 Векторы из формулы (5.1) b 1 , b 2 , b 3 , ..., b m , при помощи которых должен осу-ществляться переход к новым переменным Y i , могут быть записаны в виде матрицы


B = b 1 b 2 b 3 ... b m . (5.7)

Переход от набора исходных признаков X к набору новых переменных Y может быть представлен в виде матричной формулы

Y = B" X , (5.8)

а получение ковариационной матрицы новых признаков и достижение условия (5.2) некоррелированности новых переменных в соответствии с формулой (1.19) может быть представлено в виде

B"SB = S y , (5.9)

где ковариационная матрица новых переменных S y в силу их некоррелированности имеет диагональную форму. Из теории матриц (раздел А.25 Приложения А) известно, что, полу-чив для некоторой симметрической матрицы A собственные векторы u i и числа l i и обра-

зовав из них матрицы U и L , можно в соответствии с формулой (А.31) получить результат

U"AU = L ,

где L - диагональная матрица, включающая собственные числа симметрической матрицы A . Нетрудно видеть, что последнее равенство полностью совпадает с формулой (5.9). Поэтому, можно сделать следующий вывод. Желательные свойства новых переменных Y можно обеспечить, если векторы b 1 , b 2 , b 3 , ..., b m , при помощи которых должен осуществляться переход к этим переменным, будут собственными векторами ковариационной матрицы исходных признаков S . Тогда дисперсии новых признаков s yi 2 окажутся собственными числами

s y1 2 = l 1 , s y2 2 = l 2 , s y3 2 = l 3 , ... , s ym 2 = l m (5.10)

Новые переменные, переход к которым по формулам (5.1) и (5.8) осуществляется при помощи собственных векторов ковариационной матрицы исходных признаков, называются главными компонентами. В связи с тем, что число собственных векторов ковариационной матрицы в общем случае равно m - числу исходных признаков для этой матрицы, количество главных компонент также равно m.

В соответствии с теорией матриц для нахождения собственных чисел и векторов ковариационной матрицы следует решить уравнение

(S - l i I )b i = 0 . (5.11)

Это уравнение имеет решение, если выполняется условие равенства нулю определителя

½S - l i I ½ = 0 . (5.12)

Это условие по существу также оказывается уравнением, корнями которого являются все собственные числа l 1 , l 2 , l 3 , ..., l m ковариационной матрицы одновременно совпадающие с дисперсиями главных компонент. После получения этих чисел, для каждого i-го из них по уравнению (5.11) можно получить соответствующий собственный вектор b i . На практике для вычисления собственных чисел и векторов используются специальные итерационные процедуры (Приложение В).

Все собственные векторы можно записать в виде матрицы B , которая будет ортонормированной матрицей, так что (раздел А.24 Приложения А) для нее выполняется

B"B = BB" = I . (5.13)

Последнее означает, что для любой пары собственных векторов справедливо b i "b j = 0, а для любого такого вектора соблюдается равенство b i "b i = 1.

5.4 Проиллюстрируем получение главных компонент для простейшего случая двух исходных признаков X 1 и X 2 . Ковариационная матрица для этого набора равна

где s 1 и s 2 - средние квадратические отклонения признаков X 1 и X 2 , а r - коэффициент корреляции между ними. Тогда условие (5.12) можно записать в виде

S 1 2 - l i rs 1 s 2

rs 1 s 2 s 2 2 - l i

Рисунок 5.1 .Геометрический смысл главных компонент

Раскрывая определитель, можно получить уравнение

l 2 - l(s 1 2 + s 2 2) + s 1 2 s 2 2 (1 - r 2) = 0 ,

решая которое, можно получить два корня l 1 и l 2 . Уравнение (5.11) может быть также записано в виде


s 1 2 - l i r s 1 s 2 b i1 = 0

r s 1 s 2 s 2 2 - l i b i2 0

Подставляя в это уравнение l 1 , получим линейную систему

(s 1 2 - l 1) b 11 + rs 1 s 2 b 12 = 0

rs 1 s 2 b 11 + (s 2 2 - l 1)b 12 = 0 ,

решением которой являются элементы первого собственного вектора b 11 и b 12 . После аналогичной подстановки второго корня l 2 найдем элементы второго собственного вектора b 21 и b 22 .

5.5 Выясним геометрический смысл главных компонент. Наглядно это можно сделать лишь для простейшего случая двух признаков X 1 и X 2 . Пусть для них характерно двумерное нормальное распределение с положительным значением коэффициента корреляции. Если все индивидуальные наблюдения нанести на плоскость, образованную осями признаков, то соответствующие им точки расположатся внутри некоторого корреляционного эллипса (рис.5.1). Новые признаки Y 1 и Y 2 также могут быть изображены на этой же плоскости в виде новых осей. По смыслу метода для первой главной компоненты Y 1 , учитывающей максимально возможную суммарную дисперсию признаков X 1 и X 2 , должен достигаться максимум ее дисперсии. Это означает, что для Y 1 следует найти та-

кую ось, чтобы ширина распределения ее значений была бы наибольшей. Очевидно, что это будет достигаться, если эта ось совпадет по направлению с наибольшей осью корреляционного эллипса. Действительно, если мы спроецируем все соответствующие индивидуальным наблюдениям точки на эту координату, то получим нормальное распределение с максимально возможным размахом и наибольшей дисперсией. Это будет распределение индивидуальных значений первой главной компоненты Y 1 .

Ось, соответствующая второй главной компоненте Y 2 , должна быть проведена перпендикулярно к первой оси, так как это следует из условия некоррелированности главных компонент. Действительно, в этом случае мы получим новую систему координат с осями Y 1 и Y 2 , совпадающими по направлению с осями корреляционного эллипса. Можно видеть, что корреляционный эллипс при его рассмотрении в новой системе координат демонстрирует некоррелированность индивидуальных значений Y 1 и Y 2 , тогда как для величин исходных признаков X 1 и X 2 корреляция наблюдалась.

Переход от осей, связанных с исходными признаками X 1 и X 2 , к новой системе координат, ориентированной на главные компоненты Y 1 и Y 2 , равносилен повороту старых осей на некоторый угол j. Его величина может быть найдена по формуле

Tg 2j = . (5.14)

Переход от значений признаков X 1 и X 2 к главным компонентам может быть осуществлен в соответствии с результатами аналитической геометрии в виде

Y 1 = X 1 cos j + X 2 sin j

Y 2 = - X 1 sin j + X 2 cos j .

Этот же результат можно записать в матричном виде

Y 1 = cos j sin j X 1 и Y 2 = -sin j cos j X 1 ,

который точно соответствует преобразованию Y 1 = b 1 "X и Y 2 = b 2 "X . Иными словами,

= B" . (5.15)

Таким образом, матрица собственных векторов может также трактоваться как включающая тригонометрические функции угла поворота, который следует осуществить для перехода от системы координат, связанной с исходными признаками, к новым осям, опирающимся на главные компоненты.

Если мы имеем m исходных признаков X 1 , X 2 , X 3 , ..., X m , то наблюдения, состав-ляющие рассматриваемую выборку, расположатся внутри некоторого m-мерного корреляционного эллипсоида. Тогда ось первой главной компоненты совпадет по направлению с наибольшей осью этого эллипсоида, ось второй главной компоненты - со второй осью этого эллипсоида и т.д. Переход от первоначальной системы координат, связанной с осями признаков X 1 , X 2 , X 3 , ..., X m к новым осям главных компонент окажется равносильным осуществлению нескольких поворотов старых осей на углы j 1 , j 2 , j 3 , ..., а матрица перехода B от набора X к системе главных компонент Y , состоящая из собственных век-

торов ковариационной матрицы, включает в себя тригонометрические функции углов новых координатных осей со старыми осями исходных признаков.

5.6 В соответствии со свойствами собственных чисел и векторов следы ковариа-ционных матриц исходных признаков и главных компонент - равны. Иными словами

tr S = tr S y = tr L (5.16)

s 11 + s 22 + ... + s mm = l 1 + l 2 + ... + l m ,

т.е. сумма собственных чисел ковариационной матрицы равна сумме дисперсий всех исходных признаков. Поэтому, можно говорить о некоторой суммарной величине дисперсии исходных признаков равной tr S , и учитываемой системой собственных чисел.

То обстоятельство, что первая главная компонента имеет максимальную дисперсию, равную l 1 , автоматически означает, что она описывает и максимальную долю суммарной вариации исходных признаков tr S . Аналогично, вторая главная компонента имеет вторую по величине дисперсию l 2 , что соответствует второй по величине учитываемой доле суммарной вариации исходных признаков и т.д.

Для каждой главной компоненты можно определить долю суммарной величины изменчивости исходных признаков, которую она описывает

5.7 Очевидно, представление о суммарной вариации набора исходных признаков X 1 , X 2 , X 3 , ..., X m , измеряемой величиной tr S , имеет смысл только в том случае, когда все эти признаки измерены в одинаковых единицах. В противном случае придется складывать дисперсии, разных признаков, одни из которых будут выражены в квадратах миллиметров, другие - в квадратах килограммов, третьи – в квадратах радиан или градусов и т.д. Этого затруднения легко избежать, если от именованных значений признаков X ij перейти к их нормированным величинам z ij = (X ij - M i)./ S i где M i и S i - средняя арифметическая величина и среднее квадратическое отклонение i-го признака. Нормированные признаки z имеют нулевые средние, единичные дисперсии и не связаны с какими-либо единицами измерения. Ковариационная матрица исходных признаков S превратится в корреляционную матрицу R .

Все сказанное о главных компонентах, находимых для ковариационной матрицы, остается справедливым и для матрицы R . Здесь точно также можно, опираясь на собственные векторы корреляционной матрицы b 1 , b 2 , b 3 , ..., b m , перейти от исходных признаков z i к главным компонентам y 1 , y 2 , y 3 , ..., y m

y 1 = b 1 "z

y 2 = b 2 "z

y 3 = b 3 "z

y m = b m "z .

Это преобразование можно также записать в компактном виде

y = B"z ,

Рисунок 5.2 . Геометрический смысл главных компонент для двух нормированных признаков z 1 и z 2

где y - вектор значений главных компонент, B - матрица, включающая собственные векторы, z - вектор исходных нормированных признаков. Справедливым оказывается и равенство

B"RB = ... ... … , (5.18)

где l 1 , l 2 , l 3 , ..., l m - собственные числа корреляционной матрицы.

Результаты, получающиеся при анализе корреляционной матрицы, отличаются от аналогичных результатов для матрицы ковариационной. Во-первых, теперь можно рассматривать признаки, измеренные в разных единицах. Во-вторых, собственные векторы и числа, найденные для матриц R и S , также различны. В-третьих, главные компоненты, определенные по корреляционной матрице и опирающиеся на нормированные значения признаков z, оказываются центрироваными - т.е. имеющими нулевые средние величины.

К сожалению, определив собственные векторы и числа для корреляционной матрицы, перейти от них к аналогичным векторами и числам ковариационной матрицы - невозможно. На практике обычно используются главные компоненты, опирающиеся на корреляционную матрицу, как более универсальные.

5.8 Рассмотрим геометрический смысл главных компонент, определенных по корреляционной матрице. Наглядным здесь оказывается случай двух признаков z 1 и z 2 . Система координат, связанная с этими нормированными признаками, имеет нулевую точку, размещенную в центре графика (рис.5.2). Центральная точка корреляционного эллипса,

включающего все индивидуальные наблюдения, совпадет с центром системы координат. Очевидно, что ось первой главной компоненты, имеющая максимальную вариацию, совпадет с наибольшей осью корреляционного эллипса, а координата второй главной компоненты будет сориентирована по второй оси этого эллипса.

Переход от системы координат, связанной с исходными признаками z 1 и z 2 к новым осям главных компонент равносилен повороту первых осей на некоторый угол j. Дисперсии нормированных признаков равны 1 и по формуле (5.14) можно найти величину угла поворота j равную 45 o . Тогда матрица собственных векторов, которую можно определить через тригонометрические функции этого угла по формуле (5.15), будет равна

Cos j sin j 1 1 1

B " = = .

Sin j cos j (2) 1/2 -1 1

Значения собственных чисел для двумерного случая также несложно найти. Условие (5.12) окажется вида

что соответствует уравнению

l 2 - 2l + 1 - r 2 = 0 ,

которое имеет два корня

l 1 = 1 + r (5.19)

Таким образом, главные компоненты корреляционной матрицы для двух нормированных признаков могут быть найдены по очень простым формулам

Y 1 = (z 1 + z 2) (5.20)

Y 2 = (z 1 - z 2)

Их средние арифметические величины равны нулю, а средние квадратические отклонения имеют значения

s y1 = (l 1) 1/2 = (1 + r) 1/2

s y2 = (l 2) 1/2 = (1 - r) 1/2

5.9 В соответствии со свойствами собственных чисел и векторов следы корреляционной матрицы исходных признаков и матрицы собственных чисел - равны. Суммарная вариация m нормированных признаков равна m. Иными словами

tr R = m = tr L (5.21)

l 1 + l 2 + l 3 + ... + l m = m .

Тогда доля суммарной вариации исходных признаков, описываемая i-ой главной компонентой равна

Можно также ввести понятие P cn - доли суммарной вариации исходных признаков, описываемой первыми n главными компонентами,

n l 1 + l 2 + ... + l n

P cn = S P i = . (5.23)

То обстоятельство, что для собственных чисел наблюдается упорядоченность вида l 1 > l 2 > > l 3 > ... > l m , означает, что аналогичные соотношения будут свойственны и долям, описываемой главными компонентами вариации

P 1 > P 2 > P 3 > ... > P m . (5.24)

Свойство (5.24) влечет за собой специфический вид зависимости накопленной доли P сn от n (рис.5.3). В данном случае первые три главные компоненты описывают основную часть изменчивости признаков. Это означает, что часто немногие первые главные компоненты могут совместно учитывать до 80 - 90% суммарной вариации признаков, тогда как каждая последующая главная компонента будет увеличивать эту долю весьма незначительно. Тогда для дальнейшего рассмотрения и интерпретации можно использовать только эти немногие первые главные компоненты с уверенностью, что именно они описывают наиболее важные закономерности внутригрупповой изменчивости и коррелированности

Рисунок 5.3. Зависимость доли суммарной вариации признаков P cn , описываемой n первыми главными компонентами, от величины n. Число признаков m = 9

Рисунок 5.4. К определению конструкции критерия отсеивания главных компонент

признаков. Благодаря этому, число информативных новых переменных, с которыми следует работать, может быть уменьшено в 2 - 3 раза. Таким образом, главные компоненты имеют еще одно важное и полезное свойство - они значительно упрощают описание вариации исходных признаков и делают его более компактным. Такое уменьшение числа переменных всегда желательно, но оно связано с некоторыми искажениями взаимного расположения точек, соответствующих отдельным наблюдениям, в пространстве немногих первых главных компонент по сравнению с m-мерным пространством исходных признаков. Эти искажения возникают из-за попытки втиснуть пространство признаков в пространство первых главных компонент. Однако, в математической статистике доказывается, что из всех методов, позволяющих значительно уменьшить число переменных, переход к главным компонентам приводит к наименьшим искажениям структуры наблюдений связанных с этим уменьшением.

5.10 Важным вопросом анализа главных компонент является проблема определения их количества для дальнейшего рассмотрения. Очевидно, что увеличение числа главных компонент повышает накопленную долю учитываемой изменчивости P cn и приближает ее к 1. Одновременно, компактность получаемого описания уменьшается. Выбор того количества главных компонент, которое одновременно обеспечивает и полноту и компактность описания может базироваться на разных критериях, применяемых на практике. Перечислим наиболее распространенные из них.

Первый критерий основан на том соображении, что количество учитываемых главных компонент должно обеспечивать достаточную информативную полноту описания. Иными словами, рассматриваемые главные компоненты должны описывать большую часть суммарной изменчивости исходных признаков: до 75 - 90%. Выбор конкретного уровня накопленной доли P cn остается субъективным и зависящим как от мнения исследователя, так и от решаемой задачи.

Другой аналогичный критерий (критерий Кайзера) позволяет включать в рассмотрение главные компоненты с собственными числами большими 1. Он основан на том соображении, что 1 - это дисперсия одного нормированного исходного признака. Поэто-

му, включение в дальнейшее рассмотрение всех главных компонент с собственными числами большими 1 означает что мы рассматриваем только те новые переменные, которые имеют дисперсии не меньше чем у одного исходного признака. Критерий Кайзера весьма распространен и его использование заложено во многие пакеты программ статистической обработки данных, когда требуется задать минимальную величину учитываемого собственного числа, и по умолчанию часто принимается значение равное 1.

Несколько лучше теоретически обоснован критерий отсеивания Кеттела. Его применение основано на рассмотрении графика, на котором нанесены значения всех собственных чисел в порядке их убывания (рис.5.4). Критерий Кеттела основан на том эффекте, что нанесенная на график последовательность величин полученных собственных чисел обычно дает вогнутую линию. Несколько первых собственных чисел обнаруживают непрямолинейное уменьшение своего уровня. Однако, начиная с некоторого собственного числа, уменьшение этого уровня становится примерно прямолинейным и довольно пологим. Включение главных компонент в рассмотрение завершается той из них, собственное число которой начинает прямолинейный пологий участок графика. Так, на рисунке 5.4 в соответствие с критерием Кеттела в рассмотрение следует включить только первые три главные компоненты, потому что третье собственное число находится в самом начале прямолинейного пологого участка графика.

Критерий Кеттела основан на следующем. Если рассматривать данные по m признакам, искусственно полученные из таблицы нормально распределенных случайных чисел, то для них корреляции между признаками будут носить совершенно случайный характер и будут близкими к 0. При нахождении здесь главных компонент можно будет обнаружить постепенное уменьшение величины их собственных чисел, имеющее прямолинейной характер. Иными словами, прямолинейное уменьшение собственных чисел может свидетельствовать об отсутствии в соответствующей им информации о коррелированности признаков неслучайных связей.

5.11 При интерпретации главных компонент чаще всего используются собственные векторы, представленные в виде так называемых нагрузок - коэффициентов корреляции исходных признаков с главными компонентами. Собственные векторы b i , удовлетворяющие равенству (5.18), получаются в нормированном виде, так что b i "b i = 1. Это означает, что сумма квадратов элементов каждого собственного вектора равна 1. Собственные векторы, элементы которых являются нагрузками, могут быть легко найдены по формуле

a i = (l i) 1/2 b i . (5.25)

Иными словами, домножением нормированной формы собственного вектора на корень квадратный его собственного числа, можно получить набор нагрузок исходных признаков на соответствующую главную компоненту. Для векторов нагрузок справедливым оказывается равенство a i "a i = l i , означающее, что сумма квадратов нагрузок на i-ю главную компоненту равна i-му собственному числу. Компьютерные программы обычно выводят собственные векторы именно в виде нагрузок. При необходимости получения этих векторов в нормированном виде b i это можно сделать по простой формуле b i = a i / (l i) 1/2 .

5.12 Математические свойства собственных чисел и векторов таковы, что в соответствии с разделом А.25 Приложения А исходная корреляционная матрица R может быть представлена в виде R = BLB" , что также можно записать как

R = l 1 b 1 b 1 " + l 2 b 2 b 2 " + l 3 b 3 b 3 " + ... + l m b m b m " . (5.26)

Следует заметить, что любой из членов l i b i b i " , соответствующий i-й главной компоненте, является квадратной матрицей

L i b i1 2 l i b i1 b i2 l i b i1 b i3 … l i b i1 b im

l i b i b i " = l i b i1 b i2 l i b i2 2 l i b i2 b i3 ... l i b i2 b im . (5.27)

... ... ... ... ...

l i b i1 b im l i b i2 b im l i b i3 b im ... l i b im 2

Здесь b ij - элемент i-го собственного вектора у j-го исходного признака. Любой диагональный член такой матрицы l i b ij 2 есть некоторая доля вариации j-го признака, описываемая i-й главной компонентой. Тогда дисперсия любого j-го признака может быть представлена в виде

1 = l 1 b 1j 2 + l 2 b 2j 2 + l 3 b 3j 2 + ... + l m b mj 2 , (5.28)

означающем ее разложение по вкладам, зависящим от всех главных компонент.

Аналогично, любой внедиагональный член l i b ij b ik матрицы (5.27) является некоторой частью коэффициента корреляции r jk j-го и k-го признаков, учитываемой i-й главной компонентой. Тогда можно выписать разложение этого коэффициента в виде суммы

r jk = l 1 b 1j b 1k + l 2 b 2j b 2k + ... + l m b mj b mk , (5.29)

вкладов в него всех m главных компонент.

Таким образом, из формул (5.28) и (5.29) можно наглядно видеть, что каждая главная компонента описывает определенную часть дисперсии каждого исходного признака и коэффициента корреляции каждого их сочетания.

С учетом, того, что элементы нормированной формы собственных векторов b ij связаны с нагрузками a ij простым соотношением (5.25), разложение (5.26) может быть выписано и через собственные векторы нагрузок R = AA" , что также можно представить как

R = a 1 a 1 " + a 2 a 2 " + a 3 a 3 " + ... + a m a m " , (5.30)

т.е. как сумму вкладов каждой из m главных компонент. Каждый из этих вкладов a i a i " можно записать в виде матрицы

A i1 2 a i1 a i2 a i1 a i3 ... a i1 a im

a i1 a i2 a i2 2 a i2 a i3 ... a i2 a im

a i a i " = a i1 a i3 a i2 a i3 a i3 2 ... a i3 a im , (5.31)

... ... ... ... ...

a i1 a im a i2 a im a i3 a im ... a im 2

на диагоналях которой размещены a ij 2 - вклады в дисперсию j-го исходного признака, а внедиагональные элементы a ij a ik - есть аналогичные вклады в коэффициент корреляции r jk j-го и k-го признаков.

Компонентный анализ относится к многомерным методам снижения размерности. Он содержит один метод - метод главных компонент. Главные компоненты представляют собой ортогональную систему координат, в которой дисперсии компонент характеризуют их статистические свойства.

Учитывая, что объекты исследования в экономике характеризуются большим, но конечным количеством признаков, влияние которых подвергается воздействию большого количества случайных причин.

Вычисление главных компонент

Первой главной компонентой Z1 исследуемой системы признаков Х1, Х2, Х3 , Х4 ,…, Хn называется такая центрировано - нормированная линейная комбинация этих признаков, которая среди прочих центрировано - нормированных линейных комбинаций этих признаков, имеет дисперсию наиболее изменчивую.

В качестве второй главной компоненты Z2 мы будем брать такую центрировано - нормированную комбинацию этих признаков, которая:

не коррелированна с первой главной компонентой,

не коррелированны с первой главной компонентой, эта комбинация имеет наибольшую дисперсию.

K-ой главной компонентой Zk (k=1…m) мы будем называть такую центрировано - нормированную комбинацию признаков, которая:

не коррелированна с к-1 предыдущими главными компонентами,

среди всех возможных комбинаций исходных признаков, которые не

не коррелированны с к-1 предыдущими главными компонентами, эта комбинация имеет наибольшую дисперсию.

Введём ортогональную матрицу U и перейдём от переменных Х к переменным Z, причём

Вектор выбирается т. о., чтобы дисперсия была максимальной. После получения выбирается т. о., чтобы дисперсия была максимальной при условии, что не коррелированно с и т. д.

Так как признаки измерены в несопоставимых величинах, то удобнее будет перейти к центрированно-нормированным величинам. Матрицу исходных центрированно-нормированных значений признаков найдем из соотношения:

где - несмещенная, состоятельная и эффективная оценка математического ожидания,

Несмещенная, состоятельная и эффективная оценка дисперсии.

Матрица наблюденных значений исходных признаков приведена в Приложении.

Центрирование и нормирование произведено с помощью программы"Stadia".

Так как признаки центрированы и нормированы, то оценку корреляционной матрицы можно произвести по формуле:


Перед тем как проводить компонентный анализ, проведем анализ независимости исходных признаков.

Проверка значимости матрицы парных корреляций с помощью критерия Уилкса.

Выдвигаем гипотезу:

Н0: незначима

Н1: значима

125,7; (0,05;3,3) = 7,8

т.к > , то гипотеза Н0 отвергается и матрица является значимой, следовательно, имеет смысл проводить компонентный анализ.

Проверим гипотезу о диагональности ковариационной матрицы

Выдвигаем гипотезу:

Строим статистику, распределена по закону с степенями свободы.

123,21, (0,05;10) =18,307

т.к >, то гипотеза Н0 отвергается и имеет смысл проводить компонентный анализ.

Для построения матрицы факторных нагрузок необходимо найти собственные числа матрицы, решив уравнение.

Используем для этой операции функцию eigenvals системы MathCAD, которая возвращает собственные числа матрицы:

Т.к. исходные данные представляют собой выборку из генеральной совокупности, то мы получили не собственные числа и собственные вектора матрицы, а их оценки. Нас будет интересовать на сколько “хорошо” со статистической точки зрения выборочные характеристики описывают соответствующие параметры для генеральной совокупности.

Доверительный интервал для i-го собственного числа ищется по формуле:

Доверительные интервалы для собственных чисел в итоге принимают вид:

Оценка значения нескольких собственных чисел попадает в доверительный интервал других собственных чисел. Необходимо проверить гипотезу о кратности собственных чисел.

Проверка кратности производится с помощью статистики

где r-количество кратных корней.

Данная статистика в случае справедливости распределена по закону с числом степеней свободы. Выдвинем гипотезы:

Так как, то гипотеза отвергается, то есть собственные числа и не кратны.

Так как, то гипотеза отвергается, то есть собственные числа и не кратны.

Необходимо выделить главные компоненты на уровне информативности 0,85. Мера информативности показывает какую часть или какую долю дисперсии исходных признаков составляют k-первых главных компонент. Мерой информативности будем называть величину:

На заданном уровне информативности выделено три главных компоненты.

Запишем матрицу =

Для получения нормализованного вектора перехода от исходных признаков к главным компонентам необходимо решить систему уравнений: , где - соответствующее собственное число. После получения решения системы необходимо затем нормировать полученный вектор.

Для решения данной задачи воспользуемся функцией eigenvec системы MathCAD, которая возвращает нормированный вектор для соответствующего собственного числа.

В нашем случае первых четырех главных компонент достаточно для достижения заданного уровня информативности, поэтому матрица U (матрица перехода от исходного базиса к базису из собственных векторов)

Строим матрицу U, столбцами которой являются собственные вектора:

Матрица весовых коэффициентов:

Коэффициенты матрицы А являются коэффициентами корреляции между центрировано - нормированными исходными признаками и ненормированными главными компонентами, и показывают наличие, силу и направление линейной связи между соответствующими исходными признаками и соответствующими главными компонентами.

Метод главных компонент или компонентный анализ (principal component analysis, PCA) - один из важнейших методов в арсенале зоолога или эколога. К сожалению, в тех случаях, когда вполне уместным является применение компонентного анализа, сплошь и рядом применяют кластерный анализ.

Типичная задача, для которой полезен компонентный анализ, такова: есть некое множество объектов, каждый из которых охарактеризован по определенному (достаточно большому) количеству признаков. Исследователя интересуют закономерности, отраженные в разнообразии этих объектов. В том случае, когда есть основания предполагать, что объекты распределены по иерархически соподчиненным группам, можно использовать кластерный анализ - метод классификации (распределения по группам). Если нет оснований ожидать, что в разнообразии объектов отражена какая-то иерархия, логично использовать ординацию (упорядоченное расположение). Если каждый объект охарактеризован по достаточно большому количеству признаков (по крайней мере - такому количеству признаков, какое не получается адекватно отразить на одном графике), оптимально начинать исследование данных с анализа главных компонент. Дело в том, что этот метод является одновременно методом понижения размерности (количества измерений) данных.

Если группа рассматриваемых объектов охарактеризована значениями одного признака, для характеристики их разнообразия можно использовать гистограмму (для непрерывных признаков) или столбчатую диаграмму (для характеристики частот дискретного признака). Если объекты охарактеризованы двумя признаками, можно использовать двумерный график рассеяния, если тремя - трехмерный. А если признаков много? Можно попытаться на двумерном графике отразить взаимное расположение объектов друг относительно друга в многомерном пространстве. Обычно такое понижение размерности связано с потерей информации. Из разных возможных способов такого отображения надо выбрать тот, при котором потеря информации будет минимальной.

Поясним сказанное на самом простом примере: переходе от двумерного пространства к одномерному. Минимальное количество точек, которое задает двумерное пространство (плоскость) - 3. На рис. 9.1.1 показано расположение трех точек на плоскости. Координаты этих точек легко читаются по самому рисунку. Как выбрать прямую, которая будет нести максимальную информацию о взаиморасположении точек?

Рис. 9.1.1. Три точки на плоскости, заданной двумя признаками. На какую прямую будет проецироваться максимальная дисперсия этих точек?

Рассмотрим проекции точек на прямую A (показанную синим цветом). Координаты проекций этих точек на прямую A таковы: 2, 8, 10. Среднее значение - 6 2 / 3 . Дисперсия (2-6 2 / 3)+ (8-6 2 / 3)+ (10-6 2 / 3)=34 2 / 3 .

Теперь рассмотрим прямую B (показанную зеленым цветом). Координаты точек - 2, 3, 7; среднее значение - 4, дисперсия - 14. Таким образом, на прямую B отражается меньшая доля дисперсии, чем на прямую A.

Какова эта доля? Поскольку прямые A и B ортогональны (перпендикулярны), доли общей дисперсии, проецирующиеся на A и B, не пересекаются. Значит, общую дисперсию расположения интересующих нас точек можно вычислить как сумму этих двух слагаемых: 34 2 / 3 +14=48 2 / 3 . При этом на прямую A проецируется 71,2% общей дисперсии, а на прямую B - 28,8%.

А как определить, на какую прямую отразится максимальная доля дисперсии? Эта прямая будет соответствовать линии регрессии для интересующих нас точек, которая обозначена как C (красный цвет). На эту прямую отразится 77,2% общей дисперсии, и это - максимально возможное значение при данном расположении точек. Такую прямую, на которую проецируется максимальная доля общей дисперсии, называют первой главной компонентой .

А на какую прямую отразить оставшиеся 22,8% общей дисперсии? На прямую, перпендикулярную первой главной компоненте. Эта прямая тоже будет являться главной компонентой, ведь на нее отразится максимально возможная доля дисперсии (естественно, без учета той, которая отразилась на первую главную компоненту). Таким образом, это - вторая главная компонента .

Вычислив эти главные компоненты с помощью Statistica (диалог мы опишем чуть позже), мы получим картину, показанную на рис. 9.1.2. Координаты точек на главных компонентах показываются в стандартных отклонениях.


Рис. 9.1.2. Расположение трех точек, показанных на рис. 9.1.1, на плоскости двух главных компонент. Почему эти точки располагаются друг относительно друга иначе, чем на рис. 9.1.1?

На рис. 9.1.2 взаиморасположение точек оказывается измененным. Чтобы в дальнейшем правильно интерпретировать подобные картинки, следует рассмотреть причины отличий в расположении точек на рис. 9.1.1 и 9.1.2 подробнее. Точка 1 в обоих случаях находится правее (имеет большую координату по первому признаку и первой главной компоненте), чем точка 2. Но, почему-то, точка 3 на исходном расположении находится ниже двух других точек (имеет наименьшее значение признака 2), и выше двух других точек на плоскости главных компонент (имеет большую координату по второй компоненте). Это связано с тем, что метод главных компонент оптимизирует именно дисперсию исходных данных, проецирующихся на выбираемые им оси. Если главная компонента коррелирована с какой-то исходной осью, компонента и ось могут быть направлены в одну сторону (иметь положительную корреляцию) или в противоположные стороны (иметь отрицательные корреляции). Оба эти варианта равнозначны. Алгоритм метода главных компонент может «перевернуть» или не «перевернуть» любую плоскость; никаких выводов на основании этого делать не следует.

Однако точки на рис. 9.1.2 не просто «перевернуты» по сравнению с их взаиморасположением на рис. 9.1.1; определенным образом изменилось и их взаиморасположения. Отличия между точками по второй главной компоненте кажутся усиленными. 22,76% общей дисперсии, приходящиеся на вторую компоненту, «раздвинули» точки на такую же дистанцию, как и 77,24% дисперсии, приходящихся на первую главную компоненту.

Чтобы расположение точек на плоскости главных компонент соответствовало их действительному расположению, эту плоскость следовало бы исказить. На рис. 9.1.3. показаны два концентрических круга; их радиусы соотносятся как доли дисперсий, отражаемых первой и второй главными компонентами. Картинка, соответствующая рис. 9.1.2, искажена так, чтобы среднеквадратичное отклонение по первой главной компоненте соответствовало большему кругу, а по второй - меньшему.


Рис. 9.1.3. Мы учли, что на первую главную компоненту приходится бо льшая доля дисперсии, чем на вторую. Для этого мы исказили рис. 9.1.2, подогнав его под два концентрических круга, радиусы которых соотносятся, как доли дисперсий, приходящихся на главные компоненты. Но расположение точек все равно не соответствует исходному, показанному на рис. 9.1.1!

А почему взаимное расположение точек на рис. 9.1.3 не соответствует таковому на рис. 9.1.1? На исходном рисунке, рис. 9.1 точки расположены в соответствии со своими координатами, а не в соответствии с долями дисперсии, приходящимися на каждую ось. Расстоянию в 1 единицу по первому признаку (по оси абсцисс) на рис. 9.1.1 приходятся меньшая доля дисперсии точек по этой оси, чем расстоянию в 1 единицу по второму признаку (по оси ординат). А на рис 9.1.1 расстояния между точками определяются именно теми единицами, в которых измеряются признаки, по которым они описаны.

Несколько усложним задачу. В табл. 9.1.1 показаны координаты 10 точек в 10-мерном пространстве. Первые три точки и первые два измерения - это тот пример, который мы только что рассматривали.

Таблица 9.1.1. Координаты точек для дальнейшего анализа

Координаты

В учебных целях вначале рассмотрим только часть данных из табл. 9.1.1. На рис. 9.1.4 мы видим положение десяти точек на плоскости первых двух признаков. Обратите внимание, что первая главная компонента (прямая C) прошла несколько иначе, чем в предыдущем случае. Ничего удивительного: на ее положение влияют все рассматриваемые точки.


Рис. 9.1.4. Мы увеличили количество точек. Первая главная компонента проходит уже несколько иначе, ведь на нее оказали влияние добавленные точки

На рис. 9.1.5 показано положение рассмотренных нами 10 точек на плоскости двух первых компонент. Обратите внимание: все изменилось, не только доля дисперсии, приходящейся на каждую главную компоненту, но даже положение первых трех точек!


Рис. 9.1.5. Ординация в плоскости первых главных компонент 10 точек, охарактеризованных в табл. 9.1.1. Рассматривались только значения двух первых признаков, последние 8 столбцов табл. 9.1.1 не использовались

В общем, это естественно: раз главные компоненты расположены иначе, то изменилось и взаиморасположение точек.

Трудности в сопоставлении расположения точек на плоскости главных компонент и на исходной плоскости значений их признаков могут вызвать недоумение: зачем использовать такой трудноинтерпретируемый метод? Ответ прост. В том случае, если сравниваемые объекты описаны всего по двум признакам, вполне можно использовать их ординацию по этим, исходным признакам. Все преимущества метода главных компонент проявляются в случае многомерных данных. Метод главных компонент в таком случае оказывается эффективным способом снижения размерности данных.

9.2. Переход к начальным данным с большим количеством измерений

Рассмотрим более сложный случай: проанализируем данные, представленные в табл. 9.1.1 по всем десяти признакам. На рис. 9.2.1 показано, как вызывается окно интересующего нас метода.


Рис. 9.2.1. Запуск метода главных компонент

Нас будет интересовать только выбор признаков для анализа, хотя диалог Statistica позмоляет намного более тонкую настройку (рис. 9.2.2).


Рис. 9.2.2. Выбор переменных для анализа

После выполнения анализа появляется окно его результатов с несколькими вкладками (рис. 9.2.3). Все основные окна доступны уже из первой вкладки.


Рис. 9.2.3. Первая вкладка диалога результатов анализа главных компонент

Можно увидеть, что анализ выделил 9 главных компонент, причем описал с их помощью 100% дисперсии, отраженной в 10 начальных признаках. Это означает, что один признак был лишним, избыточным.

Начнем просматривать результаты с кнопки «Plot case factor voordinates, 2D»: она покажет расположение точек на плоскости, заданной двумя главными компонентами. Нажав эту кнопку, мы попадем в диалог, где надо будет указать, какие мы будем использовать компоненты; естественно начинать анализ с первой и второй компонент. Результат - на рис. 9.2.4.


Рис. 9.2.4. Ординация рассматриваемых объектов на плоскости двух первых главных компонент

Положение точек изменилось, и это естественно: в анализ вовлечены новые признаки. На рис. 9.2.4 отражено более 65% всего разнообразия в положении точек друг относительно друга, и это уже нетривиальный результат. К примеру, вернувшись к табл. 9.1.1, можно убедиться в том, что точки 4 и 7, а также 8 и 10 действительно достаточно близки друг к другу. Впрочем, отличия между ними могут касаться других главных компонент, не показанных на рисунке: на них, все-таки, тоже приходится треть оставшейся изменчивости.

Кстати, при анализе размещения точек на плоскости главных компонент может возникнуть необходимость проанализировать расстояния между ними. Проще всего получить матрицу дистанций между точками с использованием модуля для кластерного анализа.

А как выделенные главные компоненты связаны с исходными признаками? Это можно узнать, нажав кнопку (рис. 9.2.3) Plot var. factor coordinates, 2D. Результат - на рис. 9.2.5.


Рис. 9.2.5. Проекции исходных признаков на плоскость двух первых главных компонент

Мы смотрим на плоскость двух главных компонент «сверху». Исходные признаки, которые никак не связаны с главными компонентами, будет перпендикулярны (или почти перпендикулярны) им и отразятся короткими отрезками, заканчивающимися вблизи начала координат. Так, меньше всего с двумя первыми главными компонентами связан признак № 6 (хотя он демонстрирует определенную положительную корреляцию с первой компонентой). Отрезки, соответствующие тем признакам, которые полностью отразятся на плоскости главных компонент, будут заканчиваться на охватывающей центр рисунка окружности единичного радиуса.

Например, можно увидеть, что на первую главную компоненту сильнее всего повлияли признаки 10 (связан положительной корреляцией), а также 7 и 8 (связаны отрицательной корреляцией). Чтобы рассмотреть структуру таких корреляций подробнее, можно нажать кнопку Factor coordinates of variables, и получить таблицу, показанную на рис. 9.2.6.


Рис. 9.2.6. Корреляции между исходными признаками и выделенными главными компонентами (Factors)

Кнопка Eigenvalues выводит величины, которые называются собственными значениями главных компонент . В верхней части окна, показанного на рис. 9.2.3, выведены такие значения для нескольких первых компонент; кнопка Scree plot показывает их в удобной для восприятия форме (рис. 9.2.7).


Рис. 9.2.7. Собственные значения выделенных главных компонент и доли отраженной ими общей дисперсии

Для начала надо понять, что именно показывает значение eigenvalue. Это - мера дисперсии, отразившейся на главную компоненту, измеренная в количестве дисперсии, приходившейся на каждый признак в начальных данных. Если eigenvalue первой главной компоненты равен 3,4, это означает, что на нее отражается больше дисперсии, чем на три признака из начального набора. Собственные величины линейно связаны с долей дисперсии, приходящейся на главную компоненту, единое что, сумма собственных значений равна количеству исходных признаков, а сумма долей дисперсии равна 100%.

А что означает, что информацию об изменчивости по 10 признакам удалось отразить в 9 главных компонентах? Что один из начальных признаков был избыточным, не добавлял никакой новой информации. Так и было; на рис. 9.2.8 показано, как был сгенерирован набор точек, отраженный в табл. 9.1.1.

Метод главных компонент – это метод, который переводит большое количество связанных между собой (зависимых, коррелирующих) переменных в меньшее количество независимых переменных, так как большое количество переменных часто затрудняет анализ и интерпретацию информации. Строго говоря, этот метод не относится к факторному анализу, хотя и имеет с ним много общего. Специфическим является, во-первых, то, что в ходе вычислительных процедур одновременно получают все главные компоненты и их число первоначально равно числу исходных переменных; во-вторых, постулируется возможность полного разложения дисперсии всех исходных переменных, т.е. ее полное объяснение через латентные факторы (обобщенные признаки).

Например, представим, что мы провели исследование, в котором измерили у студентов интеллект по тесту Векслера, тесту Айзенка, тесту Равена, а также успеваемость по социальной, когнитивной и общей психологии. Вполне возможно, что показатели различных тестов на интеллект будут коррелировать между собой, так как они, в конце концов, измеряют одну характеристику испытуемого – его интеллектуальные способности, хотя и по-разному. Если переменных в исследовании слишком много (x 1 , x 2 , …, x p ) , а некоторые из них взаимосвязаны, то у исследователя иногда возникает желание уменьшить сложность данных, сократив количество переменных. Для этого и служит метод главных компонент, который создает несколько новых переменных y 1 , y 2 , …, y p , каждая из которых является линейной комбинацией первоначальных переменных x 1 , x 2 , …, x p :

y 1 =a 11 x 1 +a 12 x 2 +…+a 1p x p

y 2 =a 21 x 1 +a 22 x 2 +…+a 2p x p

(1)

y p =a p1 x 1 +a p2 x 2 +…+a pp x p

Переменные y 1 , y 2 , …, y p называются главными компонентами или факторами. Таким образом, фактор – это искусственный статистический показатель, возникающий в результате специальных преобразований корреляционной матрицы . Процедура извлечения факторов называется факторизацией матрицы. В результате факторизации из корреляционной матрицы может быть извлечено разное количество факторов вплоть до числа, равного количеству исходных переменных. Однако факторы, определяемые в результате факторизации, как правило, не равноценны по своему значению.

Коэффициенты a ij , определяющие новую переменную, выбираются таким образом, чтобы новые переменные (главные компоненты, факторы) описывали максимальное количество вариативности данных и не коррелировали между собой. Часто полезно представить коэффициенты a ij таким образом, чтобы они представляли собой коэффициент корреляции между исходной переменной и новой переменной (фактором). Это достигается умножением a ij на стандартное отклонение фактора. В большинстве статистических пакетов так и делается (в программе STATISTICA тоже). Коэффициенты a ij Обычно они представляются в виде таблицы, где факторы располагаются в виде столбцов, а переменные в виде строк:

Такая таблица называется таблицей (матрицей) факторных нагрузок. Числа, приведенные в ней, являются коэффициентами a ij .Число 0,86 означает, что корреляция между первым фактором и значением по тесту Векслера равна 0,86. Чем выше факторная нагрузка по абсолютной величине, тем сильнее связь переменной с фактором.

Метод главных компонент

Метод главных компонент (англ. Principal component analysis, PCA ) - один из основных способов уменьшить размерность данных, потеряв наименьшее количество информации . Изобретен К. Пирсоном (англ. Karl Pearson ) в г. Применяется во многих областях, таких как распознавание образов , компьютерное зрение , сжатие данных и т. п. Вычисление главных компонент сводится к вычислению собственных векторов и собственных значений ковариационной матрицы исходных данных. Иногда метод главных компонент называют преобразованием Кархунена-Лоэва (англ. Karhunen-Loeve ) или преобразованием Хотеллинга (англ. Hotelling transform ). Другие способы уменьшения размерности данных - это метод независимых компонент, многомерное шкалирование, а также многочисленные нелинейные обобщения: метод главных кривых и многообразий, метод упругих карт , поиск наилучшей проекции (англ. Projection Pursuit ), нейросетевые методы «узкого горла », и др.

Формальная постановка задачи

Задача анализа главных компонент, имеет, как минимум, четыре базовых версии:

  • аппроксимировать данные линейными многообразиями меньшей размерности;
  • найти подпространства меньшей размерности, в ортогональной проекции на которые разброс данных (то есть среднеквадратичное отклонение от среднего значения) максимален;
  • найти подпространства меньшей размерности, в ортогональной проекции на которые среднеквадратичное расстояние между точками максимально;
  • для данной многомерной случайной величины построить такое ортогональное преобразование координат, что в результате корреляции между отдельными координатами обратятся в ноль.

Первые три версии оперируют конечными множествами данных. Они эквивалентны и не используют никакой гипотезы о статистическом порождении данных. Четвёртая версия оперирует случайными величинами. Конечные множества появляются здесь как выборки из данного распределения, а решение трёх первых задач - как приближение к «истинному» преобразованию Кархунена-Лоэва. При этом возникает дополнительный и не вполне тривиальный вопрос о точности этого приближения.

Аппроксимация данных линейными многообразиями

Иллюстрация к знаменитой работе К. Пирсона (1901): даны точки на плоскости, - расстояние от до прямой . Ищется прямая , минимизирующая сумму

Метод главных компонент начинался с задачи наилучшей аппроксимации конечного множества точек прямыми и плоскостями (К. Пирсон, 1901). Дано конечное множество векторов . Для каждого среди всех -мерных линейных многообразий в найти такое , что сумма квадратов уклонений от минимальна:

,

где - евклидово расстояние от точки до линейного многообразия. Всякое -мерное линейное многообразие в может быть задано как множество линейных комбинаций , где параметры пробегают вещественную прямую , а - ортонормированный набор векторов

,

где евклидова норма, - евклидово скалярное произведение, или в координатной форме:

.

Решение задачи аппроксимации для даётся набором вложенных линейных многообразий , . Эти линейные многообразия определяются ортонормированным набором векторов (векторами главных компонент) и вектором . Вектор ищется, как решение задачи минимизации для :

.

Векторы главных компонент могут быть найдены как решения однотипных задач оптимизации :

1) централизуем данные (вычитаем среднее): . Теперь ; 2) находим первую главную компоненту как решение задачи; . Если решение не единственно, то выбираем одно из них. 3) Вычитаем из данных проекцию на первую главную компоненту: ; 4) находим вторую главную компоненту как решение задачи . Если решение не единственно, то выбираем одно из них. … 2k-1) Вычитаем проекцию на -ю главную компоненту (напомним, что проекции на предшествующие главные компоненты уже вычтены): ; 2k) находим k-ю главную компоненту как решение задачи: . Если решение не единственно, то выбираем одно из них. …

На каждом подготовительном шаге вычитаем проекцию на предшествующую главную компоненту. Найденные векторы ортонормированы просто в результате решения описанной задачи оптимизации, однако чтобы не дать ошибкам вычисления нарушить взаимную ортогональность векторов главных компонент, можно включать в условия задачи оптимизации.

Неединственность в определении помимо тривиального произвола в выборе знака ( и решают ту же задачу) может быть более существенной и происходить, например, из условий симметрии данных. Последняя главная компонента - единичный вектор, ортогональный всем предыдущим .

Поиск ортогональных проекций с наибольшим рассеянием

Первая главная компонента максимизирует выборочную дисперсию проекции данных

Пусть нам дан центрированный набор векторов данных (среднее арифметическое значение равно нулю). Задача - найти такое ортогональное преобразование в новую систему координат , для которого были бы верны следующие условия:

Теория сингулярного разложения была создана Дж. Дж. Сильвестром (англ. James Joseph Sylvester ) в г. и изложена во всех подробных руководствах по теории матриц .

Простой итерационный алгоритм сингулярного разложения

Основная процедура - поиск наилучшего приближения произвольной матрицы матрицей вида (где - -мерный вектор, а - -мерный вектор) методом наименьших квадратов:

Решение этой задачи дается последовательными итерациями по явным формулам. При фиксированном векторе значения , доставляющие минимум форме , однозначно и явно определяются из равенств :

Аналогично, при фиксированном векторе определяются значения :

B качестве начального приближения вектора возьмем случайный вектор единичной длины, вычисляем вектор , далее для этого вектора вычисляем вектор и т. д. Каждый шаг уменьшает значение . В качестве критерия остановки используется малость относительного уменьшения значения минимизируемого функционала за шаг итерации () или малость самого значения .

В результате для матрицы получили наилучшее приближение матрицей вида (здесь верхним индексом обозначен номер приближения). Далее, из матрицы вычитаем полученную матрицу , и для полученной матрицы уклонений вновь ищем наилучшее приближение этого же вида и т. д., пока, например, норма не станет достаточно малой. В результате получили итерационную процедуру разложения матрицы в виде суммы матриц ранга 1, то есть . Полагаем и нормируем векторы : В результате получена аппроксимация сингулярных чисел и сингулярных векторов (правых - и левых - ).

К достоинствам этого алгоритма относится его исключительная простота и возможность почти без изменений перенести его на данные с пробелами , а также взвешенные данные.

Существуют различные модификации базового алгоритма, улучшающие точность и устойчивость. Например, векторы главных компонент при разных должны быть ортогональны «по построению», однако при большом числе итерации (большая размерность, много компонент) малые отклонения от ортогональности накапливаются и может потребоваться специальная коррекция на каждом шаге, обеспечивающая его ортогональность ранее найденным главным компонентам.

Сингулярное разложение тензоров и тензорный метод главных компонент

Часто вектор данных имеет дополнительную структуру прямоугольной таблицы (например, плоское изображение) или даже многомерной таблицы - то есть тензора : , . В этом случае также эффективно применять сингулярное разложение. Определение, основные формулы и алгоритмы переносятся практически без изменений: вместо матрицы данных имеем -индексную величину , где первый индекс -номер точки (тензора) данных.

Основная процедура - поиск наилучшего приближения тензора тензором вида (где - -мерный вектор ( - число точек данных), - вектор размерности при ) методом наименьших квадратов:

Решение этой задачи дается последовательными итерациями по явным формулам. Если заданы все векторы-сомножители кроме одного , то этот оставшийся определяется явно из достаточных условий минимума.

B качестве начального приближения векторов () возьмем случайные векторы единичной длины, вычислим вектор , далее для этого вектора и данных векторов вычисляем вектор и т. д. (циклически перебирая индексы) Каждый шаг уменьшает значение . Алгоритм, очевидно, сходится. В качестве критерия остановки используется малость относительного уменьшения значения минимизируемого функционала за цикл или малость самого значения . Далее, из тензора вычитаем полученное приближение и для остатка вновь ищем наилучшее приближение этого же вида и т. д., пока, например, норма очередного остатка не станет достаточно малой.

Это многокомпонентное сингулярное разложение (тензорный метод главных компонент) успешно применяется при обработке изображений, видеосигналов, и, шире, любых данных, имеющих табличную или тензорную структуру.

Матрица преобразования к главным компонентам

Матрица преобразования данных к главным компонентам состоит из векторов главных компонент, расположенных в порядке убывания собственных значений:

( означает транспонирование),

То есть, матрица является ортогональной .

Большая часть вариации данных будет сосредоточена в первых координатах, что позволяет перейти к пространству меньшей размерности.

Остаточная дисперсия

Пусть данные центрированы, . При замене векторов данных на их проекцию на первые главных компонент вносится средний квадрат ошибки в расчете на один вектор данных:

где собственные значения эмпирической ковариационной матрицы , расположенные в порядке убывания, с учетом кратности.

Эта величина называется остаточной дисперсией . Величина

называется объяснённой дисперсией . Их сумма равна выборочной дисперсии. Соответствующий квадрат относительной ошибки - это отношение остаточной дисперсии к выборочной дисперсии (то есть доля необъяснённой дисперсии ):

По относительной ошибке оценивается применимость метода главных компонент с проецированием на первые компонент.

Замечание : в большинстве вычислительных алгоритмов собственные числа с соответствующими собственными векторами - главными компонентами вычисляются в порядке «от больших - к меньшим». Для вычисления достаточно вычислить первые собственных чисел и след эмпирической ковариационной матрицы , (сумму диагональных элементов , то есть дисперсий по осям). Тогда

Отбор главных компонент по правилу Кайзера

Целевой подход к оценке числа главных компонент по необходимой доле объяснённой дисперсии формально применим всегда, однако неявно он предполагает, что нет разделения на «сигнал» и «шум», и любая заранее заданная точность имеет смысл. Поэтому часто более продуктивна иная эвристика, основывающаяся на гипотезе о наличии «сигнала» (сравнительно малая размерность, относительно большая амплитуда) и «шума» (большая размерность, относительно малая амплитуда). С этой точки зрения метод главных компонент работает как фильтр: сигнал содержится, в основном, в проекции на первые главные компоненты, а в остальных компонентах пропорция шума намного выше.

Вопрос: как оценить число необходимых главных компонент, если отношение «сигнал/шум» заранее неизвестно?

Простейший и старейший метод отбора главных компонент даёт правило Кайзера (англ. Kaiser"s rule ): значимы те главные компоненты, для которых

то есть превосходит среднее значение (среднюю выборочную дисперсию координат вектора данных). Правило Кайзера хорошо работает в простых случаях, когда есть несколько главных компонент с , намного превосходящими среднее значение, а остальные собственные числа меньше него. В более сложных случаях оно может давать слишком много значимых главных компонент. Если данные нормированы на единичную выборочную дисперсию по осям, то правило Кайзера приобретает особо простой вид: значимы только те главные компоненты, для которых

Оценка числа главных компонент по правилу сломанной трости

Пример: оценка числа главных компонент по правилу сломанной трости в размерности 5.

Одним из наиболее популярных эвристических подходов к оценке числа необходимых главных компонент является правило сломанной трости (англ. Broken stick model ) . Набор нормированных на единичную сумму собственных чисел (, ) сравнивается с распределением длин обломков трости единичной длины, сломанной в -й случайно выбранной точке (точки разлома выбираются независимо и равнораспределены по длине трости). Пусть () - длины полученных кусков трости, занумерованные в порядке убывания длины: . Нетрудно найти математическое ожидание :

По правилу сломанной трости -й собственный вектор (в порядке убывания собственных чисел ) сохраняется в списке главных компонент, если

На Рис. приведён пример для 5-мерного случая:

=(1+1/2+1/3+1/4+1/5)/5; =(1/2+1/3+1/4+1/5)/5; =(1/3+1/4+1/5)/5; =(1/4+1/5)/5; =(1/5)/5.

Для примера выбрано

=0.5; =0.3; =0.1; =0.06; =0.04.

По правилу сломанной трости в этом примере следует оставлять 2 главных компоненты:

По оценкам пользователей, правило сломанной трости имеет тенденцию занижать количество значимых главных компонент.

Нормировка

Нормировка после приведения к главным компонентам

После проецирования на первые главных компонент с удобно произвести нормировку на единичную (выборочную) дисперсию по осям. Дисперсия вдоль й главной компоненты равна ), поэтому для нормировки надо разделить соответствующую координату на . Это преобразование не является ортогональным и не сохраняет скалярного произведения. Ковариационная матрица проекции данных после нормировки становится единичной, проекции на любые два ортогональных направления становятся независимыми величинами, а любой ортонормированный базис становится базисом главных компонент (напомним, что нормировка меняет отношение ортогональности векторов). Отображение из пространства исходных данных на первые главных компонент вместе с нормировкой задается матрицей

.

Именно это преобразование чаще всего называется преобразованием Кархунена-Лоэва. Здесь - векторы-столбцы, а верхний индекс означает транспонирование.

Нормировка до вычисления главных компонент

Предупреждение : не следует путать нормировку, проводимую после преобразования к главным компонентам, с нормировкой и «обезразмериванием» при предобработке данных , проводимой до вычисления главных компонент. Предварительная нормировка нужна для обоснованного выбора метрики, в которой будет вычисляться наилучшая аппроксимация данных, или будут искаться направления наибольшего разброса (что эквивалентно). Например, если данные представляют собой трёхмерные векторы из «метров, литров и килограмм», то при использовании стандартного евклидового расстояния разница в 1 метр по первой координате будет вносить тот же вклад, что разница в 1 литр по второй, или в 1 кг по третьей. Обычно системы единиц, в которых представлены исходные данные, недостаточно точно отображают наши представления о естественных масштабах по осям, и проводится «обезразмеривание»: каждая координата делится на некоторый масштаб, определяемый данными, целями их обработки и процессами измерения и сбора данных.

Есть три cущественно различных стандартных подхода к такой нормировке: на единичную дисперсию по осям (масштабы по осям равны средним квадратичным уклонениям - после этого преобразования ковариационная матрица совпадает с матрицей коэффициентов корреляции), на равную точность измерения (масштаб по оси пропорционален точности измерения данной величины) и на равные требования в задаче (масштаб по оси определяется требуемой точностью прогноза данной величины или допустимым её искажением - уровнем толерантности). На выбор предобработки влияют содержательная постановка задачи, а также условия сбора данных (например, если коллекция данных принципиально не завершена и данные будут ещё поступать, то нерационально выбирать нормировку строго на единичную дисперсию, даже если это соответствует смыслу задачи, поскольку это предполагает перенормировку всех данных после получения новой порции; разумнее выбрать некоторый масштаб, грубо оценивающий стандартное отклонение, и далее его не менять).

Предварительная нормировка на единичную дисперсию по осям разрушается поворотом системы координат, если оси не являются главными компонентами, и нормировка при предобработке данных не заменяет нормировку после приведения к главным компонентам.

Механическая аналогия и метод главных компонент для взвешенных данных

Если сопоставить каждому вектору данных единичную массу, то эмпирическая ковариационная матрица совпадёт с тензором инерции этой системы точечных масс (делённым на полную массу ), а задача о главных компонентых - с задачей приведения тензора инерции к главным осям. Можно использовать дополнительную свободу в выборе значений масс для учета важности точек данных или надежности их значений (важным данным или данным из более надежных источников приписываются бо́льшие массы). Если вектору данных придаётся масса , то вместо эмпирической ковариационной матрицы получим

Все дальнейшие операции по приведению к главным компонентам производятся так же, как и в основной версии метода: ищем ортонормированный собственный базис , упорядочиваем его по убыванию собственных значений, оцениваем средневзвешенную ошибку аппроксимации данных первыми компонентами (по суммам собственных чисел ), нормируем и т. п.

Более общий способ взвешивания даёт максимизация взвешенной суммы попарных расстояний между проекциями. Для каждых двух точек данных, вводится вес ; и . Вместо эмпирической ковариационной матрицы используется

При симметричная матрица положительно определена, поскольку положительна квадратичная форма:

Далее ищем ортонормированный собственный базис , упорядочиваем его по убыванию собственных значений, оцениваем средневзвешенную ошибку аппроксимации данных первыми компонентами и т. д. - в точности так же, как и в основном алгоритме.

Этот способ применяется при наличии классов : для из разных классов вес вес выбирается бо́льшим, чем для точек одного класса. В результате, в проекции на взвешенные главные компоненты различные классы «раздвигаются» на большее расстояние.

Другое применение - снижение влияния больших уклонений (оутлайеров, англ. Outlier ), которые могут искажать картину из-за использования среднеквадратичного расстояния: если выбрать , то влияние больших уклонений будет уменьшено. Таким образом, описанная модификация метода главных компонент является более робастной , чем классическая.

Специальная терминология

В статистике при использовании метода главных компонент используют несколько специальных терминов.

Матрица данных ; каждая строка - вектор предобработанных данных (центрированных и правильно нормированных ), число строк - (количество векторов данных), число столбцов - (размерность пространства данных);

Матрица нагрузок (Loadings) ; каждый столбец - вектор главных компонент, число строк - (размерность пространства данных), число столбцов - (количество векторов главных компонент, выбранных для проецирования);

Матрица счетов (Scores) ; каждая строка - проекция вектора данных на главных компонент; число строк - (количество векторов данных), число столбцов - (количество векторов главных компонент, выбранных для проецирования);

Матрица Z-счетов (Z-scores) ; каждая строка - проекция вектора данных на главных компонент, нормированная на единичную выборочную дисперсию; число строк - (количество векторов данных), число столбцов - (количество векторов главных компонент, выбранных для проецирования);

Матрица ошибок (или остатков ) (Errors or residuals) .

Основная формула:

Пределы применимости и ограничения эффективности метода

Метод главных компонент применим всегда. Распространённое утверждение о том, что он применим только к нормально распределённым данным (или для распределений, близких к нормальным) неверно: в исходной формулировке К. Пирсона ставится задача об аппроксимации конечного множества данных и отсутствует даже гипотеза о их статистическом порождении, не говоря уж о распределении.

Однако метод не всегда эффективно снижает размерность при заданных ограничениях на точность . Прямые и плоскости не всегда обеспечивают хорошую аппроксимацию. Например, данные могут с хорошей точностью следовать какой-нибудь кривой, а эта кривая может быть сложно расположена в пространстве данных. В этом случае метод главных компонент для приемлемой точности потребует нескольких компонент (вместо одной), или вообще не даст снижения размерности при приемлемой точности. Для работы с такими «кривыми» главными компонентами изобретен метод главных многообразий и различные версии нелинейного метода главных компонент . Больше неприятностей могут доставить данные сложной топологии. Для их аппроксимации также изобретены различные методы, например самоорганизующиеся карты Кохонена , нейронный газ или топологические грамматики . Если данные статистически порождены с распределением, сильно отличающимся от нормального, то для аппроксимации распределения полезно перейти от главных компонент к независимым компонентам , которые уже не ортогональны в исходном скалярном произведении. Наконец, для изотропного распределения (даже нормального) вместо эллипсоида рассеяния получаем шар, и уменьшить размерность методами аппроксимации невозможно.

Примеры использования

Визуализация данных

Визуализация данных - представление в наглядной форме данных эксперимента или результатов теоретического исследования.

Первым выбором в визуализации множества данных является ортогональное проецирование на плоскость первых двух главных компонент (или 3-мерное пространство первых трёх главных компонент). Плоскость проектирования является, по сути плоским двумерным «экраном», расположенным таким образом, чтобы обеспечить «картинку» данных с наименьшими искажениями. Такая проекция будет оптимальна (среди всех ортогональных проекций на разные двумерные экраны) в трех отношениях:

  1. Минимальна сумма квадратов расстояний от точек данных до проекций на плоскость первых главных компонент, то есть экран расположен максимально близко по отношению к облаку точек.
  2. Минимальна сумма искажений квадратов расстояний между всеми парами точек из облака данных после проецирования точек на плоскость.
  3. Минимальна сумма искажений квадратов расстояний между всеми точками данных и их «центром тяжести».

Визуализация данных является одним из наиболее широко используемых приложений метода главных компонент и его нелинейных обобщений .

Компрессия изображений и видео

Для уменьшения пространственной избыточности пикселей при кодировании изображений и видео используется линейные преобразования блоков пикселей. Последующие квантования полученных коэффициентов и кодирование без потерь позволяют получить значительные коэффициенты сжатия. Использование преобразования PCA в качестве линейного преобразования является для некоторых типов данных оптимальным с точки зрения размера полученных данных при одинаковом искажении . На данный момент этот метод активно не используется, в основном из-за большой вычислительной сложности. Также сжатия данных можно достичь отбрасывая последние коэффициенты преобразования.

Подавление шума на изображениях

Хемометрика

Метод главных компонент - один из основных методов в хемометрике (англ. Chemometrics ). Позволяет разделить матрицу исходных данных X на две части: «содержательную» и «шум». По наиболее популярному определению «Хемометрика - это химическая дисциплина, применяющая математические, статистические и другие методы, основанные на формальной логике, для построения или отбора оптимальных методов измерения и планов эксперимента, а также для извлечения наиболее важной информации при анализе экспериментальных данных».

Психодиагностика

  1. анализ данных (описание результатов опросов или других исследований, представленных в виде массивов числовых данных);
  2. описание социальных явлений (построение моделей явлений, в том числе и математических моделей).

В политологии метод главных компонент был основным инструментом проекта «Политический Атлас Современности» для линейного и нелинейного анализа рейтингов 192 стран мира по пяти специально разработанным интегральным индексам (уровня жизни, международного влияния, угроз, государственности и демократии). Для картографии результатов этого анализа разработана специальная ГИС (Геоинформационная система), объединяющая географическое пространство с пространством признаков. Также созданы карты данных политического атласа , использующие в качестве подложки двумерные главные многообразия в пятимерном пространстве стран. Отличие карты данных от географической карты заключается в том, что на географической карте рядом оказываются объекты, которые имеют сходные географические координаты, в то время как на карте данных рядом оказываются объекты (страны) с похожими признаками (индексами).