[МУЗЫКА] [МУЗЫКА]
Уважаемые слушатели!
Данный видеоурок посвящён критериям сравнения двух групп в пакете Statistica.
Рассматривать мы его будем на примере пациентов,
страдающих сердечно-сосудистыми заболеваниями, а именно,
будем анализировать показатели пульса для контрольной и экспериментальной группы.
Мы с вами рассматривали ранее этот пример в других пакетах.
Итак, что у нас имеется?
У нас есть две группы: группа контрольная и группа экспериментальная.
При этом, замеры делались до начала лечения и после проведения лечения.
При этом, контрольная группа лечилась по классической методике,
а экспериментальная группа — по новой экспериментальной методике.
Первое, что нам нужно сделать, нам нужно импортировать данные в пакет Statistica.
Это мы можем сделать просто через буфер обмена, а можем,
как обычно, открыть файл непосредственно в пакете.
Давайте попробуем открыть этот файл: Файл — Открыть.
Данные у нас содержаться на диске C в папке Stat,
файл Pulse.
Откроем его как обычную таблицу,
считывая данные с первого листа.
У нас будут загружены данные со столбца A по столбец D
и всего 51 строка, то есть 50 наблюдений.
Нажимаем OK.
Итак, вот у нас четыре выборки.
Контрольная до начала эксперимента, экспериментальная до начала эксперимента,
контрольная после и экспериментальная после.
Нам нужно ответить на следующие вопросы.
Во-первых, мы хотим показать, что до начала эксперимента не было статистически
значимых отличий в показателях пульса.
То есть группы находились в одинаковых начальных условиях.
Далее нам важно показать,
что в экспериментальной группе после лечения произошли изменения,
то есть показатели пульса для экспериментальной группы улучшились.
А также нам нужно показать, что после проведения эксперимента отличия
контрольной и экспериментальной группы стали статистически значимыми,
то есть экспериментальная группа показала лучшие результаты.
Для того чтобы правильно выбрать критерий сравнения групп,
для начала мы должны определиться, какие именно параметрические или
непараметрические критерии мы будем использовать.
Для этого нам нужно проверить гипотезу о том,
подчиняются ли наши выборки нормальному закону распределения.
Сделаем это для всех четырёх выборок.
Для начала будем использовать критерий согласия Пирсона или критерий хи-квадрат.
Заходим в раздел Статистика — Distribution Fitting или Подгонка распределения.
Выбираем в группе непрерывных распределений нормальный закон,
нажимаем OK.
Далее выбираем переменную.
Будем рассматривать их по порядку, для начала: контрольная группа до.
OK. В принципе параметры нас в данном случае
нас не так интересуют.
Нас интересует в большей степени именно вывод о том,
подчиняется ли выборка нормальному закону.
Поэтому можно сразу нажать Summary — и мы видим,
что значение p-value достаточно высоко, то есть больше, чем 0,05.
Соответственно, на уровне значимости 0,05 у нас нет основания
отклонять нулевую гипотезу и наши данные неплохо соответствуют нормальному закону.
Проделаем то же самое для остальных выборок.
Для второй выборки делаем аналогичную проверку.
Так же смотрим на уровень значимости — и видим,
что это значение также больше, чем 0,05.
Оно незначительно больше, но, тем не менее,
у нас также нет основания отклонять нулевую гипотезу.
И мы можем согласиться с решением о том,
что данная выборка также не противоречит нормальному закону.
[БЕЗ_ЗВУКА] Возвращаемся в окно анализа, меняем на следующую переменную.
И теперь мы видим, что для контрольной группы
после проведения лечения вероятность меньше, чем уровень значимости.
Соответственно, нулевую гипотезу о нормальности распределения мы вынуждены
отклонить.
Данная выборка не подчиняется нормальному закону.
И последняя
выборка: вывод аналогичный.
То есть для последней выборки мы также отклоняем гипотезу о нормальности.
Соответственно, как мы должны выбрать критерий.
Первые две выборки у нас подчиняются нормальному закону,
последние две выборки у нас нормальному закону не подчиняются.
Следовательно, для сравнения первых двух групп мы можем
использовать параметрический критерий, а для всех остальных парных сравнений,
так как при каждом сравнении у нас будет появляться по крайнем мере одна не
нормальная выборка, мы должны будем выбрать непараметрический критерий.
Для сравнения контрольной или экспериментальной группы до начала лечения
мы должны использовать параметрический критерий для двух независимых выборок.
Потому что это совершенно разные пациенты — и их показатели действительно друг
от друга не зависят.
Это критерий Стьюдента для двух независимых выборок.
Где он находится в пакете Statistica?
Мы заходим в раздел Statistics — Основные статистики таблицы и вот в этом
блоке мы видим все критерии Стьюдента, которые предлагаются в данном пакете.
А именно, t-критерий или критерий Стьюдента для независимых выборок,
расположенных по группам, t-критерий для независимых выборок,
расположенных по переменным, t-критерий Стьюдента для зависимых выборок
и одновыборочный критерий Стьюдента, когда необходимо проверить гипотезу о том,
что среднее значение выборки совпадает с каким-то заданным.
В нашем случае мы должны использовать t-критерий Стьюдента
для независимых выборок, расположенных по переменным, как в нашем случае.
Первая переменная и вторая переменная, об этом нам подсказывают иконки.
Мы видим два разных списка разной длины, расположенных один рядом с другим.
Выбираем соответствующую строку, нажимаем OK.
Далее нам нужно определить списки переменных.
Первый список — это контрольная группа до,
второй список — это экспериментальная группа до.
Нажимаем OK — и далее можно нажать эту кнопку Summary,
можно нажать, соответственно, вот эту и посмотреть результаты.
Проверяемая гипотеза о том, что средние значения групп статистически
значимо не отличаются, то есть генеральные и средние равны.
Делается это на основании сравнения оценок средних значений для каждой группы.
В первой группе средняя составляет 83 удара, во второй группе — 82.
И по критерию Стьюдента данное отличие принимается как не значимое,
вероятность, как видите, у нас 0,65,
то есть значение p-value существенно выше уровня значимости,
то есть гипотеза о равенстве средних принимается.
Так же здесь проводится проверка равенства дисперсии по критерию Фишера,
так как одной из основных предпосылок применения данного критерия является
равенство дисперсии в группах.
Отношение дисперсии, которое определяется статистикой Фишера,
указано в соответствующем окне, а значение p-value для гипотезы
о равенстве дисперсии существенно больше, чем 0,05.
Соответственно, гипотеза о равенстве дисперсии у нас принимается.
Применение данного критерия корректно.
Отсюда мы делаем вывод о том,
что обе группы находились в одинаковых начальных условиях.
Теперь покажем,
что экспериментальная группа улучшила свои показатели после лечения.
То есть нам нужно сравнить второй и четвёртый столбец нашей таблицы.
Поскольку второй столбец, а именно, показатели экспериментальной
группы до проведения эксперимента, подчиняется нормальному закону,
а вот показатели той же группы после проведения эксперимента нормальному
закону уже не подчиняются, мы должны выбрать непараметрический критерий.
В данном случае обе эти группы у нас зависимые, так как это одни и те же люди,
и показатели того, что стало, естественно, зависят от того, что было до этого.
Поэтому нам нужно выбрать непараметрический критерий
сравнения двух зависимых выборок.
Посмотрим, что предлагает нам статистика в этом случае.
Раз нам нужен непараметрический критерий,
значит, мы заходим в раздел Statistics — Непараметрика.
И что у нас предлагается здесь при сравнении групп?
Сравнение двух независимых групп, сравнение нескольких независимых групп,
сравнение двух зависимых групп и сравнение нескольких зависимых групп.
В нашем случае нас интересует сравнение двух зависимых групп.
Смотрим на подсказочку иконки,
списки в этом случае должны быть расположены один рядом с другим.
Выбираем соответствующую строку и нажимаем OK.
В списке переменных мы указываем
экспериментальную группу до и экспериментальную группу после.
Нажимаем OK.
Вот два основных теста сравнения двух зависимых выборок —
знаковый тест и критерий Вилкоксона.
Мы с вами рассматривали критерий Вилкоксона,
давайте также применим его в этом случае.
Как видите, у критерия Вилкоксона
значение статистики у нас указано в этом столбце T,
значение нормализованной статистики указано в соседнем столбце, переменная Z,
и значение p-value существенно меньше уровня значимости 0,05.
Следовательно, гипотеза о равенств средних достаточно надежно отклоняется.
Это говорит о том, что для этих двух выборок произошли существенные
статистически значимые изменения.
Теперь посмотрим, отличаются ли
показатели контрольной и экспериментальной группы после проведения эксперимента.
Вспомним, что до начала лечения между ними статистически значимых отличий не было.
Сейчас нам нужно сравнить две группы,
каждая из которых не подчиняется нормальному закону,
при этом эти группы у нас независимые, так как это разные пациенты.
Нам нужен непараметрический критерий сравнения двух независимых выборок.
Посмотрим.
Статистика, непараметрические критерии, мы уже использовали их.
Давайте в данном случае начнем новый анализ.
И выбираем сравнение двух независимых выборок.
Но обратите внимание, что сейчас статистика требует,
чтобы эти значения были расположены по группам с группирующей переменной,
и один список должен находиться под другим.
Это чисто технический момент заполнения исходной таблицы.
Как видите, в нашем случае пока списки расположены другим образом.
Поэтому мы должны немножко преобразовать нашу таблицу.
Для этого давайте добавим две переменные, две,
после последней нашей переменной.
Программа предупреждает нас, что у нас уже имеются открытые окна анализа,
и наше вмешательство в таблицу может нарушить эти выводы.
Мы соглашаемся, так как ничего страшного при этом не произойдет.
Первую переменную мы назовем пульс,
а вторую переменную мы назовем группа.
Далее, возьмем
показатели контрольной группы,
[БЕЗ_ЗВУКА] укажем,
что это была именно контрольная группа.
[БЕЗ_ЗВУКА] Далее,
в этот же столбец пульса
добавим показатели экспериментальной группы.
Если я буду сейчас вставлять их сюда,
размерность таблицы увеличится автоматически.
Поэтому я просто ставлю курсор в начало вектора и ввожу клавишей Ctrl V.
Как видите, необходимые ячейки добавились.
Теперь мне здесь нужно показать, что это данные экспериментальной группы.
[БЕЗ_ЗВУКА] В
данном случае значения группирующей переменной
являются не числовыми, это просто качественные метки,
указывающие принадлежность наблюдения той или иной группе.
Мы можем вернуться к анализу наших групп, зайдя в Statistics, непараметрика,
выбирая новый анализ, сравнение двух независимых групп.
Обратите внимание, мы только что зашли с вами в анализ независимых групп и первое,
что мы видим, это слово dependent, то есть зависимый.
В данном случае речь идет не о зависимости двух сравниваемых групп,
а о зависимости количественной переменной от того,
к какой группе принадлежит наблюдение.
Поэтому в качестве зависимой переменной мы указываем значение пульса,
а в качестве независимой группирующей переменной мы указываем группу.
И как видите, здесь также предлагается целый ряд критериев,
критерий Вальда — Вольфовица,
Колмогорова — Смирнова сравнение двух групп и критерий Манна — Уитни.
Мы выбираем с вами, например, критерий Манна — Уитни, и по данному критерию
мы видим значение статистики Манна — Уитни, значение нормализованной
статистики и значение p-value для проверке гипотезы о равенстве средних.
Эта величина существенно меньше уровня значимости, например, 0,05,
соответственно, на уровне значимости 0,05 гипотеза о равенстве
средних отклоняется, и мы выносим решение о том,
что имеются статистически значимые отличия между группами.
Но когда мы используем напараметрические критерии, у нас сами значения средних не
указываются, указываются только суммы рангов.
Поэтому если мы хотим посмотреть, как именно
соотносятся значения средних, мы можем просто вывести описательные статистики.
Для этого мы заходим в раздел Statistics, основные статистики таблицы,
описательные статистики, и для наших основных первых
четырех выборок рассчитываем значение среднего.
В принципе, можно добавить и другие характеристики, но сейчас у нас идет
именно сравнение средних, поэтому данной характеристики Mean нам будет достаточно.
Нажимаем Summary, и вот мы видим в данном столбце, какие показатели пульса
были для контрольной и экспериментальной группы до и после лечения.
Как видим, обе группы уменьшили свои показатели, но если для контрольной группы
эти изменения были незначительными, то для экспериментальной группы они существенны,
статистически значимы, что и подтвердили наши критерии.
[МУЗЫКА]
[МУЗЫКА]