Привет. На этой неделе мы с вами поговорим про доверительные интервалы. Мы обсудим, что такое доверительный интервал и введем его формальное определение. Мы вспомним про асимптотические доверительные интервалы и обсудим различные серые области, которые мы до этого с вами не обсудили на предыдущих неделях. Мы поговорим о точных доверительных интервалах и о том, как можно построить точный доверительный интервал для нормальных выборок, когда у нас распоряжении оказалось очень мало наблюдений, но при этом мы можем выдвинуть предпосылку о том, что эти наблюдения распределены нормально. Более того, мы обсудим как можно построить точные доверительные интервалы для произвольного распределения, и посмотрим на то, как это делается на примере равномерного распределения. Начнем мы с введения понятия доверительный интервал. Как вы помните, математическая статистика устроена не очень сложно, и в принципе все основные действия, которые мы в ней предпринимаем, в частотной статистике, мы можем изобразить в виде такой вот незатейливой схемы. Мы говорили с вами, что точечной оценки обычно нам недостаточно и нам хотелось бы понимать, насколько эта оценка оказалась точной и для того, чтобы знать в каком диапазоне она у нас изменяется, обычно строят доверительные интервалы. Давайте представим себе ситуацию, что у нас есть скрепка и нам необходимо измерить ее длину. Для этого мы используем линейку. Мы прикладываем ее к скрепке и видим, что длина скрепки оказалась в районе семи сантиметров но это неточно. Почему это неточно? Потому что на линейке есть определенные деления и рано или поздно точность этих делений заканчивается и мы можем лишь сказать что длина нашей скрепки измерена с какой-то определенной точностью, которую нам дает наш инструмент. И здесь у нас получается семь плюс-минус 0,1 сантиметров. Вот этот вот диапазон и есть какая-то погрешность, которую мы вводим в наше измерение которую мы должны в дальнейшем учитывать, когда мы будем с этой длиной скрепки в дальнейшем работать. По аналогии, в статистике точечная оценка не отражает всю сущность картины, которая у нас имеет место быть. Она лишь нам говорит, что у нас есть какая то точечная оценка, полученная по некоторой выборке но выборка может быть немного другой. И нам, для того чтобы понять, в каком диапазоне она варьируется, необходимо строить доверительный интервал, для того чтобы понимать, насколько оценка оказалась точной. Поговорим про предсказательные интервалы. Когда у нас есть случайная величина X, которая имеет какое-то распределение с какой-то функцией распределения F(x), мы можем построить для этой случайной величины предсказательный интервал уровня Альфа, уровня единица минус Альфа. Для этого нам необходимо просто-напросто взять два квантиля: квантиль уровня Альфа на два и квантиль уровня единица минус Альфа на два, и зажать между этими квантилями нашу случайную величину. Наша случайная величина будет с вероятностью единица минус Альфа лежать в этом интервале, и границы этого интервала будут какими-то числами, а все случайности будут сосредоточены между этих чисел. Например, если бы случайная величина X имела нормальное распределение, то для нее получился бы вот такой вот предсказательный интервал. Хочу еще раз подчеркнуть ваше внимание на том, что границы предсказательного интервала это константы, и случайность сосредоточена между ними. Для среднего, которое имеет асимптотически нормальное распределение параметрами Мю: Сигма в квадрате делить на n, так же можно построить предсказательный на интервал. В этом случае среднее находится между границами, а границы это какие-то константы. Если мы развернем этот предсказательный интервал таким образом, чтобы среднее перекочевало налево и направо, а Мю оказалось в середине, то мы получим доверительный интервал для параметра Мю. В этой ситуации у нас случайность сосредоточена по краям, а константа некоторая, которую мы не знаем стоит в центре, то есть разница между доверительным интервалом и предсказательным интервалом заключается в том, что в случае доверительного интервала, границы это случайные величины, которые мы пытаемся получить по выборке, и при этом эти две случайные величины, которые мы оцениваем покрывают наш неизвестный параметр с вероятностью 95 процентов. Итак, формальное определение доверительного интервала: интервал от нижней границы ТетаL до верхней границы ТетаUp называется доверительным для параметра Тета, с уровнем доверия единица минус Альфа, если при бесконечном повторении одного и того же эксперимента, когда мы извлекаем выборку, строим интервал, извлекаем выборку, строим интервал, этот интервал будет покрывать истинное значение параметра с вероятностью 100 на единицу минус Альфа. Альфа при этом называется уровнем значимости. То есть, еще раз, если мы возьмем скрепку и будем много-много-много раз ее измерять и строить доверительный интервал, для того измерения, которое у нас получается то мы с вероятностью единица минус Альфа покроем реальную длину скрепки этим интервалом. Точечная оценка делается по случайной выборке Мы, из-за этого, находимся в довольно большом состоянии неопределенности, потому что когда мы извлекаем выборку, она может немножечко различаться от случая к случаю. Чтобы понять, насколько велика эта неопределенность, нам необходимо делать выводы в каком-то диапазоне. Доверительный интервал призван построить этот диапазон и сказать, насколько мы уверены в точечной оценке. На практике обычно пытаются построить наиболее узкий доверительный интервал, который покрывает какую-то надежность. Например, если Антон с вероятностью 95 процентов уверен, что среднее лежит между единицей и 20, то у него ширина доверительного интервал оказывается 19. Если Наташа уверена, что с вероятностью 95 процентов средняя лежит между 17 и 23, то для нее ширина доверительного интервала составляет шесть. И Наташа и Антон построили доверительный интервал с надежностью 95 процентов, то есть наше исчисленное значение параметра попадает туда с этой вероятностью, но при этом у них разная точность у интервалов. Наташин интервал оказывается более узким, а значит более точным. Именно в самый узкий доверительный интервал из всех возможных мы с вами будем стремиться в дальнейшем построить. На практике многие метрики, которые интересны бизнесу строятся по каким-то случайным в выборкам, и бизнесу обычно интересно, в каком диапазоне эти метрики варьируются. Для них строят доверительный интервал. Более того, если нам хочется добывать какую-нибудь руду, или какие-нибудь ископаемые, то обычно, запасы этих ископаемых в источнике оценивают по случайным образцам породы, которую удалось добыть во время экспедиции, и инвесторам обычно хочется знать не только точечную оценку но и то, сколько находится у нас запасов нефтяных внутри источника в лучшем и в худшем случае. То есть им нужен доверительный интервал, а не просто точечная оценка. Более того, обычно доверительные интервалы строят для различных прогнозов. В этом видео мы поговорили о том, зачем нужны доверительные интервалы и ввели формальное определение этого понятия. В следующем видео мы с вами вспомним, что такое асимптотический доверительный интервал.