SPSS: факторный анализ - Public forum of MSU united student networks

Так уж и нигде не встречала? Может, просто внимания не обращала?

Между прочим, требование нормальности участвующих распределений очень много где присутствует. Например, строишь ты доверительный интервал на уровне 95% для среднего по выборке с известной дисперсией s:
(a-1.96s;a+1.96s), где a - выборочное среднее.
Так вот, это будет действительно доверительным интервалом на уровне 95%, если ты имеешь выборку из нормального распределения.
Доверительный интервал по статистике Стьюдента для выборки с неизвестной дисперсией тоже строится в предположении нормального распределения. И t-test для проверки гипотезы о равенстве средних двух независимых выборок, и F-тест для гипотезы о равенстве дисперсий, и ANOVA - все это предполагает нормальность распределений.

Другое дело, что для практических целей нам не всегда нужно, чтобы формулы были безупречно верны. Все равно ведь все выполняется с какой-то вероятностью. Ну пусть твой доверительный интервал будет на самом деле не 95%, а 92%, ну и ладно. Поэтому ограничиваются тем, что работают с более-менее симметричными унимодальными распределениями без выбросов, которые "похожи на нормальное".

Вернемся к факторному анализу. Я почитал книжечку, в целом написанное выше верно, хотя с терминологией я безобразно обращаюсь.
Еще раз, что делает метод главных компонент:
1. Берем матрицу корреляций (или ковариаций) A исходных случайных величин x_1..x_n и находим "главные оси", то есть новые переменные у_1..y_n (каждая из которых есть линейная комбинация исходных переменных), которые будут ортогональны (некоррелированы). Каждая новая переменная y_i есть собственный вектор матрицы A, отвечающий собственному значению lambda_i, эта же лямбда есть дисперсия y_i. Лямбду можно интерпретировать как количество исходных переменных (иксов), за которое "отвечает" игрек.
2. Упорядочиваем y_i по убыванию их дисперсий. Каждое y_i "объясняет" процент дисперсий, равный lambda_i/(lambda_1+..lambda_n). После этого часто откидывают главные оси с маленькими лямбдами. Обычно либо оставляют небольшое число игреков, несколько штук, либо отбрасывают все игреки, у которых соответствующие лямбды меньше единицы.
3. Собственно, эти игреки (главные компоненты) и есть факторы. Но на практике работать с ними (искать им словесную интерпретацию) не очень удобно, может оказаться, что "нагрузки" (корреляции с исходными переменными) не так распределены, как нам бы хотелось. Например, первый фактор "нагружает" все исходные переменные (имеет большую корреляцию с ними), второй тоже, но корреляции меньше. Пример "неудачной" матрицы нагрузок:
переменная, y_1, y_2
x_1, 0.853,0.259
x_2, -0.701,0.421
x_3, 0.540,-0.511

А мы бы хотели, чтобы первый фактор нагружал, допустим, первые пять исходных переменных, второй - следующие пять, и так далее. Тогда мы могли бы сказать: вот, мы нашли несколько факторов, первый фактор лежит в основе вот этих переменных, второй фактор - вон тех переменных, и факторы независимы, вот как замечательно. Поэтому мы делаем "rotation", и получаем другие факторы:
переменная, f_1, f_2
x_1, 0.914,0.086
x_2, 0.654,-0.289
x_3, 0.191,-0.720

В этот момент новые факторы f_1,f_2 еще ортогональны (а если все распределения нормальны, то они и независимы). Но тут мы говорим: будем считать, что первый фактор отвечает за первые две переменных, второй отвечает за третью переменную. А ведь у нас еще есть формулы для вычисления факторов через исходные переменные, и мы выкидываем из формулы для первого фактора переменную x_3, а из формулы для второго фактора - переменные x_1,x_2. Вот после этого факторы становятся "более или менее независимыми".