Мы будем оценивать логит и пробит-
модели именно с помощью метода максимального правдоподобия.
Что такое логит и пробит-модели?
В этих моделях мы пытаемся объяснить некую бинарную переменную, то есть переменную,
которая принимает значения: либо 0, либо 1.
Каждое наблюдение, каждое y_i — это либо 0, либо 1.
Соответственно, мы предполагаем, что существует некая
невидимая нами, скрытая, ненаблюдаемая переменная y_i*.
И y_i = 1, когда y_i* > 0.
И y_i = 0, когда скрытая переменная отрицательна.
И модель строится не для y_i, которое либо 0, либо 1,
а именно для скрытой ненаблюдаемой переменной y_i*.
Модель имеет вид: β₁ + β₂ x_i + ε_i.
Разница логит и пробит-моделей состоит в спецификации случайной составляющей ε_i.
А именно в пробит-модели ε_i предполагается стандартными нормальными
случайными величинами с матожиданием 0 и дисперсией 1,
а в логит-модели ε_i, предполагается, имеет специальное логистическое распределение.
Кто не знаком с логистическим распределением,
пока временно может представлять себе, что оно похоже на нормальное распределение с
математическим ожиданием 0 и дисперсией, равной 1,6 в квадрате.
Давайте попробуем, чтобы лучше почувствовать логистическую модель,
посчитать в ней вероятность того, что y_i, конкретное наблюдение, примет значение 1.
С одной стороны, это вероятность того, что скрытая переменная неотрицательна,
поскольку скрытая переменная β₁ + β₂ x_i + ε_i, мы получаем,
что вероятность того, что y_i = 1,
можно свести к некой вероятности на ε_i.
То есть у нас получается вероятность того, что ε_i < либо = β₁ + β₂ x_i,
и это есть значение функции распределения в точке β₁ + β₂ x_i.
Из теории вероятности мы знаем,
что значение функции распределения — это есть некий интеграл от функции плотности.
И теперь мы посчитаем с вами,
чему же равна конкретно эта вероятность для логит-модели.
Функция плотности логистической случайной величины f(u) имеет следующий вид — это
e в степени (−u) делить на (1 + e в степени (−u)) в квадрате.
Если домножить на e в степени 2u числитель и знаменатель,
то получится в числителе e в степени u делить на 1 + e в степени u в квадрате.
И отсюда получается, что функция четная в точке u и в точке (−u).
Она принимает одинаковые значения.
И ее график, если построить его, то окажется, что он выглядит
очень похоже на привычную кривую плотности для нормального распределения.
То есть центр на нуле, там же максимум,
и кривая плавно убывает к плюс и минус бесконечности.
И отличие логистического распределения от нормального состоит в том,
что функцию распределения, я напомню,
что функция распределения F(t) — это вероятность того,
что, соответственно, случайная составляющая < либо = t.
Вот эту функцию у логистического распределения можно посчитать в
явном виде.
У нормального, к сожалению, это остается интегралом, который в явном виде не
берется, а у логистического распределения без проблем можно посчитать,
что мы сейчас быстренько и сделаем.
Соответственно, это есть интеграл от минус бесконечности до t,
f(u)du, то есть на картинке функция
распределения в точке t, это, значит,
у нас u, это f(u), и вот это,
эта площадь закрашенная, это F(t).
Соответственно, этот интеграл, к счастью, легко берется.
Мы берем интеграл от минус бесконечности до t,
e в степени u делить на 1 + e в степени u в квадрате du,
e эту вносим под знак дифференциала,
получаем ∫ от минус бесконечности до t,
de в степени u делить на 1 + e в степени u в квадрате,
получается как будто e в степени u — это x, а тут 1 + x в квадрате.
Соответственно, интеграл — это (−1), деленное на 1 + x,
ну в роли икса выступает e в степени u.
И мы меняем здесь u от минус бесконечности до t.
Подставляем t,
получаем (−1) делить на 1 + e в степени t.
И когда подставляем u равное минус бесконечности,
e в степени минус бесконечность в пределе дает 0, получаем (−1).
Но его надо вычесть.
Поэтому получаем +1, и, соответственно, если привести к общему знаменателю,
получим: 1 + e в степени t − 1, делить на 1 + e в степени t,
и получается e в степени t делить на 1 + e в степени t.
И, соответственно, мы установили такой факт, что для логистического
распределения, функция распределения в большой F(t) имеет вот такой простой вид.
График ее, естественно,
является возрастающим графиком от 0 до 1,
то есть это вот какая-то вот такая функция.
Но в отличии от нормальной, для графика,
соответствующего для нормальной случайной величины, здесь явный простой вид.
И, соответственно, мы можем применить это к нашей логит-модели.
В логит-модели вероятность того, что y_i = 1,
это есть значение функции распределения в точке (β₁ + β₂ помножить на x_i).
То есть, согласно нашей формуле,
это есть e в степени β₁ + β₂ x_i,
делить на 1 + e в степени β₁ + β₂ x_i.
И также очень компактную формулу имеет так называемое
логарифмическое отношение шансов.
То есть, если я возьму логарифм отношения вероятности того,
что y = 1 к вероятности того, что y = 0,
ну если я временно величину β₁ +
β₂x_i обозначу за t,
то у меня получится, что это есть
e в степени t делить, логарифм,
e в степени t делить на 1 + e в степени t,
а в знаменателе надо посчитать вероятность того, что y_i = 0.
Но если вероятность того, что y_i = 1 считается по такой формуле,
то поскольку вероятность того, что y_i = 1 и вероятность того, что y_i = 0,
дают в сумме 1, то соответственно, вероятность того,
что y_i = 0, должна = 1 делить на 1 + e в степени t.
И в нашем случае это выйдет: 1 делить на 1+ e в степени t.
1+ e в степени t благополучно сократится,
логарифм от экспоненты — благополучно останется только t.
И останется β₁ + β₂ x_i.
И соответственно, мы получили для логит-модели
интерпретацию величины β₁ + β₂ x_i.
Оказывается, это логарифм отношения шансов того,
что y окажется равным 1, деленное на вероятность того, что y_i равно 0.
Таким образом мы получили, что в логистической модели вероятность того,
что y_i равно 1, определяется как 1 деленное на 1 + экспонента в
точке −β₁ + β₂ x_i, а очень красиво выглядит логарифмическое отношение шансов.
То есть логарифм отношения вероятности того, что y_i = 1 к вероятности того,
что y_i = 0, принимает красивый вид β₁ + β₂ x_i.
Это, к сожалению или к счастью, верно только для логит-модели, для пробит-модели
интегралы в явном виде не берутся и таких наглядных формул не существует.