[МУЗЫКА] [МУЗЫКА] [МУЗЫКА] Рассмотрим теперь построение модели множественной регрессии в пакете SPSS для данных по ценам за аренду однокомнатных квартир. Также уже знакомый нам набор данных, которые мы импортируем в пакет SPSS из таблицы Excel. «Файл», «Открыть», «Данные». Таблица Excel, и загружаем информацию о ценах на квартиры, файл Flats. Также считываем имена переменных, данные из первого листа, и вот у нас появляются данные. Также первым делом проверим типы данных, первое — это тип квартиры, «гостинка» или квартира, текстовая переменная в номинальной шкале. Дальше, цена за аренду числового типа, и при этом она у нас измеряется в количественной шкале. Аналогичная переменная — это метраж, то есть площадь квартиры в метрах квадратных, также числовой тип, также в количественной шкале. Еще одна переменная, которая была совершенно корректно классифицирована, это наличие или отсутствие мебели. Тип у нее числовой, так как она задается значениями ноль или один, а вот шкала, в которой она измеряется, является шкалой номинальной. Также у нас имеются переменные с информацией об этаже — на каком этаже квартиры расположены и сколько всего этажей в доме. Они также задаются числовыми переменными, с этим все в порядке. А вот шкалы, в которых они измеряются, наверное, в данном случае логичнее задать порядковыми. Мы поменяем этаж на порядковую шкалу, и количество этажей в доме также на порядковую шкалу. Вот теперь в таком виде мы можем работать с предложенными данными и попробуем построить модель множественной регрессии для всех числовых данных. То есть зависимость цены от четырех факторов: этажа, количества этажей в доме, метража и наличия или отсутствия мебели. Мы строили подобную модель в пакете R. Напомню, что информация о мебели в данном случае представлена номинальной величиной, но тем не менее мы можем включить ее в регрессионную модель в качестве так называемой фиктивной переменной. Соответственно, параметр, который будет стоять перед этой переменной будет показывать, насколько отличается цена за аренду квартиры в случае, если она меблирована или нет. Построим линейную модель множественной регрессии. Заходим в пункт «Анализ», «Регрессия», «Линейная модель». Тот же самый пункт, который мы использовали для построения линейной модели в парной регрессии. Но теперь зависимая переменная у нас будет по-прежнему одна, а вот независимых переменных или факторов будет несколько. Мы возьмем все переменные, кроме типа. Это можно сделать с зажатой клавишей Shift, выделяя четыре переменные, и заносим их в окошко независимых переменных. В принципе, мы также можем задать интересующие нас статистики, а можем оставить все настройки по умолчанию и сразу перейти к результатам анализа. Перед нами появляется окно, сначала с информацией об анализируемых переменных, зависимая переменная у нас price — цена, а переменные факторные указаны вот в этом окне — меблировка, этаж, площадь и количество этажей в доме. Далее стоит значение множественного коэффициента корреляции. Поскольку у нас в данном случае модель многофакторная, то в первом окне у нас рассчитывается множественная корреляция. Квадрат множественного коэффициента корреляции, он же коэффициент детерминации, который описывает общую адекватность модели. Далее следует скорректированный, или подправленный, коэффициент детерминации, рассчитанный с учетом числа степеней свободы, и стандартная ошибка оценки. Далее, результаты дисперсионного анализа, показывающие дисперсию объясненную фактором и остаточную дисперсию. И далее основная таблица с результатами регрессионного анализа, а именно с оценками параметров модели, со стандартными ошибками, стандартизованными коэффициентами, показывающими связь каждого фактора с зависимой переменной, значение статистики Стьюдента и значение p-value, показывающее значимость соответствующего параметра. Итак, что мы видим? Мы видим, что в нашей модели присутствует свободный член. И он является статистически значимым, так как соответствующее значение p-value меньше уровня значимости 0,05. Далее, значимым параметром у нас является этаж. Далее, самым значимым фактором с самым низким значением p-value у нас является метраж, площадь квартиры. Также значимым является параметр, стоящий перед фактором меблировки. И значимым является этаж. Все их значения p-value меньше, чем 0,05. Единственным фактором, для которого значение p-value у нас оказалось существенно больше уровня значимости, является количество этажей в доме. То есть этот фактор можно считать не влияющим на наблюдение. Его из модели можно исключить. Сейчас мы построим новую модель, также многофакторную, но из списка факторов этот фактор будет удален. Заходим в «Анализ», «Регрессия», «Линейная». У нас сохранилась информация из предыдущей модели, мы можем просто выделить переменную, которая была признана незначимой, и вернуть ее обратно в исходный список, то есть не включать в список независимых переменных. И построим теперь новую модель. Информация о ней добавляется в таблицу. Теперь мы видим, что у нас зависимая переменная price, но факторов не четыре, а всего три. Коэффициент детерминации так же, как и множественный коэффициент корреляции, у нас немного уменьшились. Если мы посмотрим, какие значения у нас были, мы увидим, что изменения совершенно незначительные, но тем не менее они все-таки присутствуют. Потому что если мы убираем какой-то фактор из модели, дисперсия, объясненная этим фактором, переходит в остаточную дисперсию. Соответственно даже если этот фактор был незначимым, все равно часть его информации ушла. Для оставшихся трех факторов мы видим, что значения p-value все существенно меньше, чем 0,05, соответственно, гипотезы о равенстве нулю параметров, стоящих перед этими факторами, отклоняются, и мы принимаем гипотезу о том, что эти параметры значимы, а общая модель адекватна. [МУЗЫКА] [МУЗЫКА]