[МУЗЫКА] [МУЗЫКА]
[ЗВУК] Тема
сегодняшней лекции — непрерывное распределение.
Опять.
На прошлой лекции мы рассмотрели два распределения — это равномерное и
экспоненциальное, и на этой лекции мы рассмотрим еще два распределения.
И первое распределение — нормальное.
Оно так и называется — нормальное.
И оно на самом деле является,
пожалуй, самым широко распространенным распределением в мире.
Большинство статметодов заточены под то,
что наша случайная величина является именно нормальной.
Даже вы в своей практике часто встречаетесь с методами,
которые заточены под нормальность данных.
Например, арифметическое среднее иногда показывает хороший результат только тогда,
когда данные являются нормальными.
Рассмотрим функции плотности данного распределения.
Видно, что функция плотности точно такая же, как функция Гаусса.
Поэтому данное распределение также называют распределением Гаусса,
у него всего два параметра — это коэффициент сдвига и коэффициент масштаба.
Рассмотрим графики функции распределения и функции плотности.
Из графика функции плотности видно, что параметры сдвига характеризуют
ось симметрии данного распределения, то есть оно является симметричным.
Также сдвиг характеризует положение относительно нуля всего распределения.
И видно как из функции распределения, так и из функции плотности,
что оно может принимать отрицательное значение.
Матожидание вычисляется очень просто — оно равно просто параметру сдвига.
А дисперсия вычисляется как коэффициент масштаба в квадрате.
Я думаю, многим знакомо также правило трех сигм, что значение случайной величины,
которое распределено нормально, всегда находится в интервале от коэффициента
сдвига плюс-минус три коэффициента масштаба, то есть μ +/− 3σ.
На самом деле на основе этого правила придумано довольно много методов поиска
аномалий в данных.
И примеров такой случайной величины довольно много,
например, рост человека распределен нормально в определенной, конечно,
популяции, что количество низких людей примерно равно количеству высоких людей,
а большинство людей примерно среднего роста.
Либо результаты IQ-теста специально были сделаны таким образом,
чтобы они подчинялись нормальному закону распределения с параметрами 100 и 14.
Давайте посчитаем вероятность того, что встретить не очень умного человека,
ну и как следствие, очень умного, потому что распределение является симметричным.
Будем считать не очень умным человеком того,
у кого результаты IQ-теста менее 70, ну а очень умным соответственно больше 130.
Чтобы посчитать вероятность встретить не очень умного человека, необходимо
посчитать вероятность того, что случайная величина будет меньше либо равна 70.
Это равно просто значению функции нормального распределения в точке 70 и
равно 0,016.
Вроде немного.
Однако давайте посчитаем, сколько будет вероятность встретить умного человека,
довольно-таки умного.
Для этого необходимо посчитать вероятность того,
что наша случайная величина будет больше 130.
И это равно по свойствам вероятности 1 минус вероятность того, что случайная
величина меньше 130, и равно единица минус значение функции нормального распределения
в точке 130 и равно снова тоже 0,016, ну то есть немного на самом деле.
Так как данное распределение может принимать отрицательное значение,
то многие случайные величины, которые не могут по своей природе быть меньше нуля,
не могут быть описаны данным распределением.
И на самом деле, несмотря на свою распространенность,
нормальное распределение далеко не везде встречается.
И для таких случайных величин, которые близки к нулю,
то есть принимают значение около нуля,
было придумано специальное распределение — логнормальное распределение.
Из названия уже слышно, что оно как-то связано с нормальным и с логарифмом.
Ну вот глядя на функцию распределения и функцию плотности данного распределения,
понятно, что оно очень похоже на нормальное, только отличается тем,
что здесь есть логарифм.
У него тоже два параметра — это коэффициент сдвига и коэффициент масштаба,
и вы легко всегда можете перейти от логнормального распределения к
нормальному и обратно.
То есть чтобы перейти от логнормального распределения к нормальному,
необходимо просто логарифмировать случайную величину.
Чтобы перейти обратно, необходимо взять экспоненту от случайной величины.
Таким образом, матожидание и дисперсия выглядят несколько сложнее,
чем в нормальном распределении, зато из графиков функции распределения и функции
плотности видно, что чем ближе к нулю функция плотности,
тем больше логнормальное даже походит на экспоненциальное, чем на нормальное.
Однако чем дальше функция плотности от нуля,
тем больше оно начинает походить на нормальное распределение.
Обозначается логнормальное распределение как LogN.
И на самом деле вся наша статистика, которая приходит к нам в 2GIS,
распределена именно логнормально,
ну потому что фирма не может получать меньше нуля кликов, никак.
То есть фирма может быть очень непопулярной, может получать один клик,
два клика в месяц, но не может получать минус один клик.
Поэтому мы постоянно логарифмируем нашу статистику, переходим к нормальному закону
распределения и дальше делаем все, что хотим с ней уже.
И например, задачка: какова вероятность того,
что фирма получит количество кликов в интервале от 150 до 200, если мы знаем,
что клики распределены логнормально с параметрами 5 и 1?
Чтобы посчитать то,
что наша случайная величина находится в интервале от 150 до 200, необходимо
посчитать значение функции логнормального распределения в точках 200 и 150.
В результате получается 0,11.
А теперь перейдем к нормальному распределению и посчитаем все то же самое.
Для этого логарифмируем нашу случайную величину.
Таким образом, нам надо посчитать вероятность того, что логарифм
нашей случайной величины будет находиться в интервале от логарифма 150,
то есть 5,01, до логарифма 200, то есть 5,3.
И это получается опять же 0,11.
Результат совпал.
И мы так часто делаем.
На самом деле мы берем нашу статистику, и мы ее логарифмируем,
чтобы иметь возможность использовать весь широкий спектр методов,
которые были разработаны для нормального распределения.
А в следующей лекции мы рассмотрим некоторые примеры дискретных
распределений.