[МУЗЫКА] [МУЗЫКА]
[МУЗЫКА] Продолжаем разговор о факторном анализе.
Предыдущую лекцию мы закончили гипотетическим примером о том,
как нам структурировать пространство признаков,
которые характеризуют успеваемость школьников по разным предметам.
В этой лекции поговорим, как мы получили эту табличку,
что нужно учитывать для того, чтобы получать такие таблички, и что,
собственно, мы можем анализировать на основании этих табличек.
Мы пойдем вот с такой вот логики.
Сначала поговорим немножко об отборе переменных и о том,
как готовить данные для модели.
Затем как выбрать метод факторизации и количество факторов.
Затем как получить и интерпретировать матрицу факторных нагрузок.
И в заключение поговорим немножечко о том,
что же мы на основе этой матрицы и некоторых графиков можем сказать.
Отбор переменных.
Мы с вами знаем уже, что факторный анализ — это штука разведочная,
не дает нам информации достоверной о генеральной совокупности.
Кроме того, этот метод характеризуется большой долей субъективности,
в этом его ограничение и в этом его прелесть.
То есть, по большому счету, это такая творческая штука,
когда мы сначала группируем, а потом пытаемся понять,
что же стоит за этим группированием, немножечко в Шерлоков Холмсов играем.
Что можно вообще анализировать при помощи факторного анализа?
Из тех социологических задач, которые мне попадались,
это может быть структура ценностей.
Когда, допустим, человека спрашивают о том,
какие ценности вы считаете наиболее важными или какие ценности вы хотели бы,
чтобы присутствовали в ваших детях или еще что-нибудь такое.
И у нас есть список из 25 ценностей, но мы понимаем, что у нас есть,
там какие-нибудь семейные, карьерные, то есть группы.
Или есть, например, политические ориентации,
когда есть мнение о государстве, об экономике, еще о чем-то, но все эти мнения
структурированы тем, что там человек левый, правый, центр, как это ни назови.
Также можно структурировать, например, расходы: бытовые, повседневные, стилевые,
еще какие-нибудь.
Можно структурировать параметры потребления,
этим активно занимаются маркетологи, предположим.
Когда мы выделяем разные стили жизни, которые характеризуются определенными
сочетаниями продуктов и практик и так далее.
И для того чтобы вот эти вещи структурировать, понятно, что нужна будет
недюжинная исследовательская интуиция, для того чтобы за вот этими вот цифрами
разглядеть живые стили, которые соответствуют окружающему миру вокруг нас.
Для того чтобы, соответственно, построить факторную модель,
нам нужно отобрать переменные,
и нам потом с этими переменными нужно должным образом работать.
Когда мы отбираем переменные, что требуется?
Во-первых, важен тип шкалы.
Мы уже говорили, логика факторного анализа — корреляционная, следовательно,
либо интервальные, либо дихотомические, но порядковые, с обозначенными ограничениями.
Также важно распределение признака.
Если у нас шкала интервальная, чистим от выбросов, если у нас шкала дихотомическая,
важно, чтобы нули и единицы были представлены сопоставимо.
То есть, если у нас, например, есть какая-то переменная, которая «01»,
и единиц у нас в выборке, скажем, всего 1 %, а 99 % нулей, то такая переменная
плоха, то есть тут нет дисперсии, тут нечего объяснять, это не интересно.
Это, почти наверняка испортит модель.
Может быть, на примере мы что-то такое увидим далее в этом курсе.
Кроме того, рекомендуется еще,
чтобы соотношение объектов и признаков было как минимум 10 к 1.
То есть, если у нас есть, допустим, 10 переменных и мы хотим построить
укрупненную классификацию этих переменным, то нужно,
чтобы было как минимум 100 объектов; 10 ценностей и минимум 100 человек,
чтобы достоверным образом эти ценности структурировать.
У социологов, как правило, таких проблем не бывает,
мы работаем с большими массивами опросных данных,
но вот в той же психологии это ограничение может играть существенную роль.
Дальше. После того как мы отобрали переменные с
учетом вот этих вот требований, мы выбираем метод факторного анализа.
Самый распространённый метод, как я говорила ранее,
это метод «главных компонент», в SPSS он реализован по умолчанию, и как правило,
в большинстве известных мне работ он и используется.
В SPSS реализованы и другие методы: наименьших квадратов,
максимального правдоподобия, факторизация главной оси, некоторые другие.
Имейте в виду, что они есть, и если зачем-то нужно, их можно попробовать,
но мы будем говорить о методе главных компонент.
После того как мы выбрали метод, в нашем случае это метод главных компонент,
дальше нам нужно выбрать, сколько же, собственно, факторов оставить.
В методе главных компонент мы помним, факторов получается столько же,
сколько было исходных признаков.
И уровень общности мы определяем сами.
Каким образом мы это можем сделать?
Здесь два интуитивно понятных способа: либо исследователь задает сам, допустим,
я изучаю политические ориентации 20 лет, и я знаю, что их три вида.
Соответственно, оставьте мне три фактора.
Да, для этого нужны какие-то серьезные обоснования,
и опять-таки поле может нас немного поправить.
Другой способ — это определить автоматически.
Если у нас нет классификации, в которой мы уверены, мы можем сказать программному
продукту, к примеру, «выдели определённое количество факторов», и он выделит.
Вопрос: где остановиться?
Распространённый критерий — это то, что называется критерием Кайзера,
или он же критерий каменистой осыпи в графической версии, когда мы оставляем
только те факторы, которые объясняют больше, чем дисперсию одного признака.
Тут идея опять-таки понятна.
Если мы строим обобщенную модель,
то в идеале обобщенный фактор должен объяснять признак плюс что-то еще.
А если фактор даже дисперсию одного признака объяснить не может, то мы не
можем его назвать обобщающим, он, скорее, теряющий, поэтому мы их отбрасываем.
Соответственно, вот два варианта.
Если вы уверены, то ставьте количество факторов вручную, если вы не уверены,
то позвольте алгоритму, и он по крайней мере вот на таком основании
классифицирует, и потом можно будет, опять-таки, что-то скорректировать.
Дальше.
После того как мы выбрали переменные, выбрали метод,
выбрали количество факторов, мы получаем модель с некоторыми табличками,
которые характеризуют качество модели, о нем подробно поговорим в следующей лекции,
а также матрицу факторных нагрузок.
Матрица факторных нагрузок — это основной материал для приложения нашей
исследовательской интуиции.
То есть, это вот та самая табличка, которая с оценками, это та самая табличка,
на основании которой мы интерпретируем то, что получилось у нас в модели,
что значат те факторы, которые мы получили.
Я на самом деле немножечко вперед забежала в предыдущей лекции и показала вам не ту
матрицу факторных нагрузок, которую мы получаем по умолчанию,
а матрицу факторных нагрузок преобразованную.
Это еще одна вещь,
которая в факторном анализе существует и называется она вращением факторов.
Теоретически опять-таки это, может быть, немножко сложно объяснить,
но идея в том, что после того как мы построили метод главных компонент,
у нас ограничение какое?
Что у нас объем объясняемой дисперсии сильно снижается с каждым
следующим фактором.
То есть мы ее выбираем как бы по максимуму, и это имеет следствием некую
разбалансированность модели, с точки зрения объема объясняемой дисперсии.
Вращение факторов.
Да, разные способы вращения существуют, но с главными компонентами,
особенно когда нас интересуют контрастные решения, то часто используется вращение,
которое называется VARIMAX.
Даже из названия этого вращения,
следует что мы VARIMAX максимизируем вариативность.
То есть, в результате этого вращения у нас фиксируется угол между осями,
но мы поворачиваем их в этом пространстве точек так,
чтобы контрастность решения была максимальной.
В результате мы получаем то, что дисперсия, которая объясняется факторами,
распределяется более равномерно между вот этими построенными осями,
угол при этом между ними сохраняется, они продолжают быть перпендикулярными друг
другу, а матрица факторных нагрузок меняется.
Вот вы видите сейчас на слайде матрицу факторных нагрузок до вращения и после
вращения и понимаете, что вот до вращения она, в принципе,
показывает то же самое, но она чуть менее контрастная, чуть менее определенная,
факторные нагрузки меньше по модулю.
После того как мы повращали, у нас получилось решение,
которое нам гораздо проще читать, то есть мы совершенно четко видим,
что значит первый фактор и что значит второй фактор.
Что мы можем делать с полученными факторами?
Ну если я директор школы и если у меня есть вот эти данные о наших школьниках,
что я мог бы просто посчитать без факторного анализа, это, например,
средний балл по отдельным предметам.
Но после того как факторный анализ построен,
мы можем строить вот такие вот диаграммки.
Когда у нас по одной оси откладывается, грубо говоря, физмат направленность,
по другой оси откладывается гуманитарная направленность, и в этой оси
вот каждая точка — это вот наши студенты с каким-то сочетанием значений факторов.
И мы видим, что вот мы разделили средний балл на высокий, средний и низкий,
и мы видим, что ребята со средним средним баллом или высоким средним баллом
присутствуют как в той части, где есть склонность к гуманитарным дисциплинам,
так и в той части, где существует склонность к физмат дисциплинам.
Ну, конечно, есть ребята с низким средним баллом, которых, очевидно,
нужно подтягивать.
Но опять-таки по расположению точек мы можем видеть, в какой области их нужно
подтягивать скорее, в гуманитарных или физико-математических дисциплинах.
Ну вот мы построили, получили, что-то визуализировали, но как нам понять,
насколько качественная та модель, которую мы получили?
Подробно о способах оценки качества поговорим в следующей лекции.