[ЗВУК] [ЗВУК] [ЗВУК] Рассмотрим теперь, какие графики мы можем построить в пакете SPSS при обработке данных. В частности мы сейчас рассмотрим с вами построение гистограммы, диаграммы рассеяния и графика Box plot, он же коробка с усами, ящик с усами или диаграмма размаха. Начнем с построения гистограммы. Все графики собраны в пункте «Графика», и то, что интересует нас сейчас находится в разделе «Устаревшие диалоговые окна». Как видим, в выпадающем подменю последним пунктом у нас как раз таки указана гистограмма. Гистограмма может быть в принципе построена для переменных любого типа, то есть это будет просто частотная таблица, указывающая, например, количество мальчиков и количество девочек для переменой Пол, и это будут стандартные диаграммы количественных переменных для значений Роста, Веса, Пресса и Прыжка. Допустим, мы хотим построить гистограмму для переменой Рост. Для этого мы должны выбрать ее в списке доступных нам переменных и стрелочкой отправить в окно «Переменные». Попробуем сразу построить гистограмму, посмотреть, что предложит нам пакет SPSS в этом случае. Не меняя никаких остальных установок, сразу нажимаем кнопку Ok. У нас открывается все тот же журнал, где у нас уже проводился определенный анализ. И вот у нас появилась диаграмма, которая представляет собой гистограмму для переменной Роста. Как видим, здесь у нас сейчас слишком много столбцов, слишком много интервалов разбиения. Для того чтобы отредактировать область гистограммы, мы должны кликнуть на ней дважды, у нас появляется редактор диаграммы. Далее нам нужно выбрать объект, который мы хотим редактировать. В данном случае это количество столбцов. Нажимая на какой-то из столбцов, у нас все столбцы диаграммы выделяются желтым контуром. То есть сейчас мы можем редактировать эту область. Также можно нажать дважды, либо нажать правую кнопку мыши один раз и выбрать «Свойства элемента». У нас появляется дополнительное окно свойств, и, в частности, сейчас у нас количество интервалов указано автоматически. Допустим, я хочу сделать только 8 интервалов разбиения. Для этого я выбираю пункт «Настраиваемая» и указываю количество требуемых интервалов. Применяем это к графику, и, как вы видите, число интервалов на нашем графике изменилось. Многие статистические критерии требуют знания распределения, и, как правило, они настроены на работу с выборками, подчиняющимися нормальному закону. Поэтому было бы интересно представлять себе, насколько наша выборка соответствует нормальному распределению. При построении гистограммы в пакете SPSS есть возможность сразу же наложить график плотности нормального распределения, или гауссовский колокольчик, для того чтобы сравнить нашу выборку с теоретическим законом. Для этого мы также нажимаем правую кнопку, и вот здесь у нас последним пунктом появляется строка «Показать кривую распределения». Это будет именно нормальное распределение, которое будет наложено на уже построенный график. Нажимаем Ok, и вот появилась наша кривая. Далее в окне «Редактирование» в принципе мы можем также подобрать и другие законы. Гистограмма построена. В принципе также мы можем добавить заголовки, изменить подписи осей, мы можем редактировать область, содержащую информацию о нашей переменной, менять цвета. Это уже зависит от целей и задач вашего исследования и для того, где и в каком виде вы планируете использовать данный рисунок. Сейчас мы этот график можем закрыть и перейти к построению следующего графика. Сейчас для той же переменной Рост я хочу построить диаграммы размаха, они называются еще Box plot, коробки с усами или ящики с усами. Мы рассматривали уже эти графики при работе в пакете R. Для того чтобы построить этот график в пакете SPSS, мы идем также в пункт меню «Графика», «Устаревшие диалоговые окна», и у нас есть такой пункт, как Boxplot. Выбираем его и построим обычный простой ящик с усами. Нам также нужно определить переменные, по которым будет идти построение. Допустим, я сейчас хочу построить два графика по переменной Рост отдельно для девочек и отдельно для мальчиков, чтобы потом иметь возможность сравнить эти данные, эти две группы между собой. Основная переменная, для которой будет строиться график, это переменная Рост. Выбираем ее из списка и стрелкой отправляем в соответствующее окно. Далее, для того чтобы моя выборка была разбита на категории, мне нужно, соответственно, задать категориальную переменную, в качестве которой сейчас будет выступать Пол. Выбирает из списка переменных Пол и стрелкой отправляем ее вот сюда. Кстати, как видите, при выборе переменной у нас стрелочка отправляется в обратную сторону. То есть если вы изначально выбрали из списка не ту переменную, с которой хотели работать, или, отработав уже с выбранными, решили поменять и провести подобный анализ для других переменных, вы можете вернуть переменную в список и выбрать что-то другое. Сейчас мы пока это делаем для переменной Рост, то есть у нас здесь все устраивает. Построим график, какой у нас получится. У нас также отрывается «Журнал», в котором добавляется дополнительная информация, соответствующая выполненному анализу, а именно построению диаграммы размаха. Мы видим, что по категориальной оси, которой соответствуют переменные Пол, у нас сейчас два значения (так же, как исходно в нашей таблице: f соответствует девочкам, m — соответственно, мальчикам), а по оси y отложены диаграммы размаха по переменной Рост соответственно каждому полу. Напомню, при построении диаграммы размаха вот эта средняя черта соответствует медиане для соответствующей выборки. Нижняя граница и верхняя граница ящика (или коробки) — это первый и третий квартили, то есть высота этого ящика представляет собой межквартильное расстояние. Далее, границы усов соответствуют минимальному и максимальному значению в выборке, которые были классифицированы как не являющиеся выбросами. И в соответствии с выбранным коэффициентом выброса, который, как правило, выбирается равный 1,5, за пределами усов лежат значения, которые классифицируются как выбросы, то есть которые выпадают за полуторное межквартильное расстояние. Соответственно, что мы можем видеть на этом графике? Мы видим, что для девочек 80-е наблюдение было классифицировано как выброс, то есть девочка с ростом 121 см является намного меньше основной вот этой группы. Аналогичная ситуация: мальчик, которому соответствует вторая строка наблюдений (вот она здесь в исходной таблице, если мы посмотрим), он также выпал за общий диапазон и был классифицирован как выброс, только теперь уже с большей стороны. Далее, когда мы будем рассматривать критерий сравнения групп, сравнения выборок, мы посмотрим, как проанализировать более детально, более строго эти графики, например, на равенство средних значений и так далее. Рассмотрим построение еще одного графика, который называется «Диаграмма рассеяния». Логично предположить, что значение веса должно определяться в некоторой степени значением роста. Понятно, что чем человек выше, тем его вес должен быть больше. Но, естественно, здесь нет такой строго однозначной зависимости, так как даже при одном росте вес у людей может быть разный, и это обусловлено целым рядом факторов. Но тем не менее тенденция к возрастанию веса в зависимости от роста должна наблюдаться. Давайте построим график для наших 90 наблюдений, откладывая по оси x значение Роста как предсказывающей переменной, а по y — значение Веса как переменной, зависящей от нашего x. Идем в пункт «Графика», также «Устаревшие диалоговые окна» и здесь выбираем график Рассеяния/точки. Построим обычную диаграмму рассеяния. Выбираем первый пункт, и нам нужно также задать переменные. Далее, выберем, что у нас будет откладываться по оси Y, что — по оси X. Как правило, при построении графика у нас строится график Y = f(X), то есть Y зависит от X. Соответственно, по оси X мы должны указать независимую переменную, а по оси Y — переменную, зависящую от X. В нашем случае вес зависит от роста. Соответственно, по оси Y мы должны отложить значение переменной «Вес», а по оси X — значение переменной «Рост». Нажимаем ОК, и мы попадаем в журнал, где у нас построен график, соответствующий диаграмме рассеяния. Действительно, с одной стороны, мы наблюдаем некоторую тенденцию, то есть чем выше значение роста, тем выше значение веса, то есть малым значениям роста соответствуют чаще малые значения веса, большим значениям роста — большие значения веса. То есть имеется определенная зависимость. С другой стороны, также имеется достаточно высокий разброс этих значений. Но об этом мы поговорим чуть позже, когда будем рассматривать разделы регрессионного анализа. Сейчас мы пока строим только предварительную обработку данных. Что касается самого графика, можно немножко подкорректировать видимую область. Как видно, здесь у нас получилось достаточно много пустого пространства, и рамку можно было бы чуть-чуть поближе прижать к нашим наблюдениям, то есть изменить вот эту шкалу. Точно так же, как мы это делали с гистограммой, мы можем немного отредактировать эту область. Для этого мы нажимаем два раза на области построенной диаграммы, попадаем в окно редактора. И здесь нам нужно выбрать объекты, которые мы хотим редактировать. В частности, мы хотим сейчас изменить масштабы по оси X и по оси Y. Нажимаем на, например, последнем значении. И у нас появляется дополнительное окно, где мы можем менять свойства нашего графика. В частности, мы можем здесь изменить и цвета, обозначения, шрифты, но нас больше всего интересуют шкалы. То есть сейчас минимальным отображенным значением у нас является значение 120, максимальным автоматически отображенным значением у нас является значение 160. При этом максимальная координата по этой оси, как указано, здесь в наших данных, — это значение 154. Соответственно, нам будет вполне достаточно, если последним будет значение 155. Выбирать значение 154 не очень красиво, чтобы оно не легло у нас прямо на границу графика. Например, укажем здесь 55 и применим эти действия к нашей диаграмме. Как видите, он у нас немножко сдвинулся и теперь более симметрично расположен по оси X. Далее, мы можем сделать те же самые действия и с осью Y, то есть теперь нам нужно редактировать значения по оси Y. Открывается абсолютно аналогичное окно, и мы видим, что максимальное значение у нас 41. Укажем здесь, например, значение 42 и также применим к графику. Теперь мы видим, что значения более однородно, более равномерно заполняют видимую область. График может быть более удобным для дальнейшей работы. [МУЗЫКА] [МУЗЫКА]