Эконометрика пытается ответить на два вопроса: как устроен мир,
как одна переменная зависит от других?
И что будет завтра, как спрогнозировать зависимую объясняемую переменную y?
Ответы на эти два вопроса мы получаем с помощью моделей.
Модель — это, говоря простым языком, некая формула, которая связывает
объясняемую переменную y и объясняющую переменную — одну x или несколько.
Например, модель может иметь вид: y_i (i-ое наблюдение за переменной y)
равняется β₁ + β₂ x_i + ε_i
Но, прежде чем говорить об оценивании моделей, о том как выбрать какую модель,
надо начать с данных, потому что без данных моделей не бывает.
В эконометрике встречается много разных типов данных, ну, пожалуй, самые простые
базовые типы данных — это временные ряды, перекрестные данные и панельные данные.
Что из себя собой представляют временные ряды?
У вас есть какой-то индекс времени, например, год,
и показатели, которые меняются во времени, например, население России в 2010-м году
было 142 тысячи, почти 143, и так далее, вот, в 2013-м году — 143 тысячи,
и показатель безработицы в процентах соответственно каждому году.
То есть временные ряды — это несколько показателей на разные моменты времени,
момент времени, упорядоченный между собой, как правило, регулярный — год,
неделя, месяц, квартал.
Второй тип, очень распространенный тип данных — это перекрестная выборка,
когда есть несколько объектов, например, несколько стран на один момент времени.
Например, если мы возьмем данные по количеству медалей золотых, серебряных и
бронзовых на Олимпийских играх 2014-го года, то мы увидим, что у России
13 золотых, 11 серебряных и 9 бронзовых, ну и там, далее, у других стран.
То есть у нас есть несколько показателей на один момент времени для
разных объектов.
Может быть, например, для разных индивидов.
Мы опросили индивидов, узнали их зарплату, уровень образования и так далее.
Следующий тип данных — более сложное, это — панельные данные, когда мы, например,
взяли бы несколько перекрестных выборок, относящихся к разным моментам времени.
Например, взяли бы данные по результатам Олимпийских игр за разные годы,
тогда мы получили бы панельные данные.
Этими тремя типами данных, конечно, все не исчерпывается, но,
пожалуй, это самые простые типы данных, и мы начнем с перекрестной выборки.
Мы будем использовать следующее обозначение.
Переменной y мы будем обозначать одну зависимую объясняемую переменную, ту
переменную, которую мы хотим предсказать или хотим понять от чего она зависит.
И объясняющие переменные, другими словами — регрессоры,
мы будем обозначать буковками x, z.
Если их будет много, будем нумеровать x_2, x_3.
По каждой переменной у нас будет n наблюдений, возможно, там будут пропуски.
Но, в целом, будет n наблюдений по каждой переменной.
Мы их будем нумеровать соответственно нижним индексом — y_1, y_2,
и так далее до y_n.
Рассмотрим простой пример исторических реальных данных,
где очень легкая причинно-следственная связь.
Это данные 1920-х годов.
Были измерены скорости автомобилей и длина тормозного пути.
Соответственно, вот, кусочек этого массива данных представлен в таблице.
Длина тормозного пути в метрах — 0,6 метра, 3 метра и скорость, с которой
ехала машина, прежде чем начать тормозить, поскольку это данные 1920-х годов,
вы тут в этом наборе данных не увидите скоростей типа 60 км/час и так далее.
Вот, машина ехала 12 км/час и тормозила метр с небольшим.
Когда вы работаете с реальными данными, обязательно изображайте данные.
Никакой эконометрический анализ не заменит простого графического анализа.
Вы можете выявить простым графическим анализом то, что выявить,
путаясь вслепую без графиков, эконометрически очень сложно.
Если мы изобразим наши данные, по горизонтали отложим скорость машины,
по вертикали отложим длину тормозного пути, мы увидим ожидаемую взаимосвязь:
чем больше скорость, тем больше длина тормозного пути в среднем.
Соответственно, в данном случае мы предположим,
что модель имеет простую линейную форму.
То есть y_i = β₁ + β₂ x_i + ε_i Потому что именно
такая зависимость видна у нас на графике, зависимость похожа визуально на линейную.
Что здесь есть что?
У нас есть наблюдаемые переменные,
y — это длина тормозного пути и x — это скорость, с которой ехала машина.
Есть неизвестные коэффициенты β₁ и β₂.
То есть, β₂ показывает — насколько увеличивается тормозной путь,
если машина разгонится на один лишний километр в час.
И есть некая случайная составляющая ε, это может быть все что угодно,
ну водитель по-другому нажимал на тормоз, ну что-то там на дороге было другое,
то есть это та часть, по которой у нас нет возможности предсказать, но,
соответственно, тем не менее, вот эта случайная ошибка ε,
она входит в y. В соответствии с
имеющимися данными и поставленными вопросами, есть некий план действий.
Первый план действий, вообще говоря,
первый шаг — это придумать адекватную модель.
Ну, здесь,
судя по картинке, линейная модель вполне подходит к данному набору данных.
Дальше нам нужен метод, который бы по исходному набору точек позволял бы
получить β₁ с крышкой, β₂ с крышкой.
Оценки этих самых неизвестных коэффициентов β₁ и β₂.
Ну, а затем, если мы хотим прогнозировать или интерпретировать коэффициенты,
то мы можем, прогнозируя, использовать вместо неизвестных β₁ и
β₂ оцененные коэффициенты β₁ с крышкой и β₂ с крышкой.
Оценить β₁ с крышкой и β₂ с крышкой можно разными способами, разными методами.
Самый простой, самый популярный метод — это метод наименьших квадратов.
В чем состоит метод наименьших квадратов?
Если мы придумали какие-то оценки β₁ с крышкой, β₂ с крышкой, то,
естественно, у нас возникает такое понятие, как ошибка прогноза.
ε_i с крышкой — это, соответственно, разница между y_i,
фактическим наблюдением, и прогнозом y_i с крышкой.
И, естественно, возникает суммарная ошибка прогноза.
Чтобы ошибки не компенсировали друг друга, одна в плюс,
другая в минус, не компенсировали друг друга, мы возведем в квадрат.
И посчитаем сумму квадратов ошибок прогноза,
то есть сумма ε_i с крышкой в квадрате.
И метод наименьших квадратов говорит: возьмите в
качестве оценок такие коэффициенты β₁ с крышкой и β₂ с крышкой,
при которых сумма квадратов ошибок прогноза будет минимальна, то есть
мы минимизируем по β₁ с крышкой и β₂ с крышкой сумму квадратов ошибок прогнозов.
В нашем примере с фактическими данными с машинами, если взять фактические данные,
подставить его в формулу суммы квадратов ошибок прогнозов,
то эта сумма квадратов ошибок будет зависеть только от β₁ с крышкой,
β₂ с крышкой, и если решить задачу минимизации, то есть найти минимум функций
двух переменных по β₁ с крышкой и β₂ с крышкой, то получится решение.
А именно, если это сделать численно, мы это сделаем в R, то получится β₁ с крышкой
= -5,3, а и β₂ с крышкой = 0,7 То есть мы получили формулу для прогнозирования,
а именно длина тормозного пути — это -5,3 + 0,7 * (на скорость машины).
То есть мы можем интерпретировать — с увеличением скорости машины на 1 км/час,
длина тормозного пути растет на 0,7 метра.
И сейчас, чтобы освоить получше метод наименьших квадратов,
мы решим пару простых примеров с числами, с конкретными y₁,
y₂ с тремя наблюдениями для простоты примера.