[БЕЗ ЗВУКА] В этом видео мы разберемся
еще с одним семейством непараметрических критериев — перестановочные критерии.
Давайте для начала вспомним, как работали критерии ранговые.
Мы брали наши выборки, превращали их в ранги, затем делали какое-то
дополнительное предположение и на основании этого предположения получали,
что разные конфигурации этих рангов могли реализоваться с той же самой вероятностью.
Мы перебирали все эти конфигурации и считали на каждой конфигурации значение
статистики, таким образом оценивали для нашей статистики нулевое распределение.
Что если в этом алгоритме мы пропустим первый пункт, не будем превращать наши
наблюдения в ранги, а все остальное будем делать точно так же?
Именно так работают перестановочные критерии.
Одновыборочный перестановочный критерий проверяет нулевую гипотезу о том,
что математическое ожидание случайной величины, из которой выборка взята,
равно некоторой константе m0.
Дополнительно делается предположение о том, что распределение исходной случайной
величины относительно математического ожидания симметрично.
Статистикой перестановочного критерия в одновыборочной задаче может служить
сумма разностей i-того значения x и m0.
Если нулевая гипотеза справедлива, каждый из объектов выборки мог с одинаковой
вероятностью реализоваться слева и справа от математического ожидания.
Поэтому мы будем перебирать все 2 в степени n знаков,
которые могут стоять в выражении для нашей статистики перед разностью xi − m0.
И вот на основании этого перебора мы и восстановим нулевое распределение
нашей статистики.
Давайте вспомним задачу анализа диаметра шайб: по выборке из 24 элементов мы
пытаемся понять, соответствует ли средний диаметр шайбы стандарту — 10 миллиметров.
Проверяем эту нулевую гипотезу мы против двухсторонней альтернативы о том,
что средний диаметр стандарту не соответствует.
Критерий знаковых рангов в нашем случае давал достигаемый уровень
значимости 0.067, и вот так выглядело его нулевое распределение.
Если мы используем перестановочный критерий,
его нулевое распределение выглядит вот так.
Значение статистики, которая в нашем эксперименте реализовалась — это 14.6.
Для того чтобы посчитать достигаемый уровень значимости,
мы суммируем высоты всех столбиков, начиная от 14.6 и больше,
а также от −14.6 и меньше, поскольку альтернатива у нас двухсторонняя.
В результате мы получаем достигаемый уровень значимости, равный примерно 0.1,
то есть нулевая гипотеза все еще не отвергается.
Обратите внимание, что достигаемый уровень значимости перестановочного критерия —
это фактически доля перебираемых перестановок,
на которых мы получаем такое же или еще более экстремальное значение статистики.
Двухвыборочная задача со связанными выборками решается абсолютно
таким же критерием — от двух связанных выборок мы переходим к одной
выборке соответствующих попарных разностей.
Проверяем нулевую гипотезу вида матожидание X1 − X2 = 0.
И делаем это с помощью статистики,
равной просто сумме построенных нами попарных разностей.
Чтобы рассчитать нулевое распределение этой статистики,
перебираем 2 в степени n знаков, которые могут возникать перед этими слагаемыми,
получаем ровно то же самое.
В задаче с оценкой эффективности транквилизатора у нас есть
девять пациентов,
для которых до и после приема мы измерили депрессивность по шкале Гамильтона.
И мы проверяем нулевую гипотезу о том, что депрессивность не изменилась,
против односторонней альтернативы о том, что транквилизатор подействовал,
то есть депрессивность снизилась.
Критерий знаковых рангов давал достигаемый уровень значимости 0.019,
и вот так выглядело его нулевое распределение.
Нулевое распределение перестановочного критерия изображено на нижнем графике.
Значение статистики, которое реализуется в нашем эксперименте — 3.887.
Суммируя высоты всех столбиков, начиная от 3.887 и направо,
мы получаем достигаемый уровень значимости, равный 0.04.
Нулевая гипотеза отвергается в пользу односторонней альтернативы.
Перестановочный критерий для независимых выборок выглядит абсолютно так же, как
критерий Манна-Уитни за исключением того, что мы не делаем ранговые преобразования.
Он проверяет нулевую гипотезу о том, что распределение случайных величин,
из которых взяты две независимые выборки, полностью совпадают,
против альтернативы сдвига.
Отличается только его статистика.
Статистика — это просто разность выборочных средних в этих двух выборках.
Нулевое распределение точно так же, как и для критерия Манна-Уитни,
получается перебором всех C из n1 + n2 по n1 размещений нашей объединенной
выборки по выборкам X1 и X2 объемов n1 и n2.
В задаче с анализом связей между кофеином и респираторным обменом мы проверяли
нулевую гипотезу о том, что среднее значение показателей респираторного обмена
не отличается в двух группах: пациентов, которые приняли кофеин и приняли
плацебо — против двухсторонней альтернативы о том, что что-то изменилось.
Критерий Манна-Уитни давал достигаемый уровень значимости 0.052.
Вот так выглядело его нулевое распределение.
На нижнем графике здесь нулевое распределение перестановочного критерия,
который мы только что рассмотрели.
Значение статистики, которое в эксперименте реализуется — 6.33,
оно соответствует достигаемому уровню значимости 0.0578.
Нулевая гипотеза все еще не отвергается.
У перестановочных критериев есть некоторые особенности,
о которых очень важно помнить.
Во-первых, статистику для перестановочных критериев можно выбирать по-разному.
В некоторых случаях это приводит к одному и тому же достигаемому уровню значимости,
то есть, по сути, ни на что не влияет.
Например, в одновыборочной задаче, если вы проверяете гипотезу о том,
что математическое ожидание равно нулю, вы можете использовать в качестве статистики
перестановочного критерия сумму элементов выборки, а можете — выборочное среднее.
Нулевые распределения этих двух статистик будут отличаться только сдвигом
и масштабом, поэтому достигаемый уровень значимости, посчитанный по ним,
будет одним и тем же.
В других случаях, по-разному выбирая статистику для перестановочного критерия,
вы можете получать разные достигаемые уровни значимости.
Например, распределения нулевые у статистик — выборочное среднее и
выборочное среднее, деленное на выборочную дисперсию, умноженную на корень из n,
— отличаются не только сдвигом и масштабом, поэтому достигаемый уровень
значимости у таких критериев с этими двумя вариантами статистик тоже будут разные.
Поэтому при выборе статистики для перестановочного критерия важно думать
о том, какие из свойств исходной случайной величины для вас наиболее важны.
Если вам неинтересно нормировать на выборочную дисперсию,
не нужно этого делать.
Перестановочные критерии придумал Рональд Фишер еще в начале XX века,
однако активно их использовать начали только с появлением и широким
распространением компьютеров, потому что для вычисления нулевых
распределений этих критериев можно использовать только перестановки.
В отличие от ранговых критериев, никаких нормальных аппроксимаций для нулевого
распределения в случае больших выборок не существует, поэтому единственный способ
оценить нулевое распределение статистики — это перебрать много перестановок.
Поэтому точно посчитать достигаемый уровень значимости перестановочного
критерия на больших выборках достаточно сложно.
Хорошая новость заключается в том, что мы можем его посчитать приближенно.
Для этого нужно взять просто какое-то случайное подмножество всех возможных
перестановок.
При этом достигаемый уровень значимости будет оценен с точностью примерно
√p * (1 − p), деленное на количество перестановок, которое вы берете.
На практике, как правило, достаточно просто взять несколько тысяч перестановок,
и вы уже получите достаточно точную аппроксимацию
достигаемого уровня значимости.
Итак, в этом видео мы узнали, как работают перестановочные критерии.
Они действуют в абсолютно тех же самых предположениях, что и ранговые,
но учитывают больше информации за счет того, что никакое понижающее
количество информации в данных преобразованиях не используется.
В следующем видео мы поговорим про связь между перестановочными критериями и
бутстрепом.