В сегодняшней четвертой лекции мы расскажем о двух связанных явлениях — мультиколлинеарности и методе главных компонент. Начнем с мультиколлинеарности. Мультиколлинеарность — это явление, состоящее в том, что среди регрессоров, среди объясняющих переменных существует линейная зависимость. Эта зависимость может быть идеальной, тогда мы имеем дело со строгой мультиколлинеарностью, или примерной зависимостью, то есть когда 1х, один регрессор, плюс другой, например, примерно равняется третьему. Эта ситуация называется нестрогой мультиколлинеарностью. Давайте рассмотрим пример строгой мультиколлинеарности. Вот здесь, в этой матрице, если присмотреться, то можно заметить, что если сложить второй столбец матрицы, второй регрессор и третий столбец матрицы, третий регрессор, то получится значение четвертого столбца, помноженное на 2. Это явление называется строгой мультиколлинеарностью. Когда строгая мультиколлинеарность может случиться в реальности? Ну, скорей всего, это просто ошибка исследователя, например, неправильное введение дамми-переменных. Давайте рассмотрим ошибочно составленную модель с использованием дамми-переменных, то есть переменных, принимающих значение 0 или 1. Исследователь попытался оценить зависимость зарплаты от количества лет обучения и пола респондента. И для этого он включил переменную male, которая равна единичке для мужчин, переменную female, которая равна единичке для женщин. Ну, соответственно, свободный член β1 и также количество лет обучения — переменную education. Соответственно, в этой ситуации, если мы составим матрицу всех регрессоров, то первый столбец матрицы — это будет столбец из единичек. Второй столбец — это будет столбец, где единички будут соответствовать мужчинам. Третий столбец — это будет столбец, где единички будут соответствовать женщинам. И, соответственно, четвертый столбец будет отвечать за количество лет обучения. Здесь мы видим, что если сложить второй и третий столбец матрицы, то получится в точности первый столбец матрицы. И мы имеем дело со строгой мультиколлинеарностью. Каковы последствия строгой мультиколлинеарности? Проблема состоит в том, что оценки метода наименьших квадратов являются не единственными в такой ситуации. Действительно, давайте на простом примере увидим, что единственных оценок метода наименьших квадратов не существует. Вот посмотрим на три указанных оцененных уравнения. Ну, например, уравнение, где прогнозируемая заработная плата равна 28 минус 10 умножить на переменную male, минус 15 умножить на переменную female. Например, если я подставлю переменную male, равную 1 и female, равную 0 для мужчины, то у меня получится, что зарплата равна 18 плюс 3 умножить на количество лет обучения. Ежели я рассмотрю модель, которая, казалось бы — совершенно другие коэффициенты, прогнозируемая заработная плата равна 18 плюс 0 умножить на переменную male минус 5 умножить на переменную female, то опять же для мужчин male = 1, female = 0, прогнозное значение заработной платы будет равно 18 плюс 3 умножить на количество лет обучения. То есть модели с принципиально разными коэффициентами дают абсолютно одинаковые прогнозы, и поэтому никаким методом выбрать модель из указанных не получится. Соответственно, поскольку строгая мультиколлинеарность, как правило, является последствием какой-то ошибки в введении объясняющих переменных, то нужно просто правильно ввести объясняющие переменные. Например, ввести либо переменную, которая равна единичке, когда респондент мужчина, то есть либо оставить переменную male и убрать переменную female, либо, наоборот, убрать переменную male и оставить переменную female, которая для женщин равна 1, а для мужчин — 0. В такой ситуации строгой мультиколлинеарности не возникнет, и оценки метода наименьших квадратов будут существовать и будут единственны. Вторая ситуация гораздо более распространенная — это нестрогая мультиколлинеарность. Когда между объясняющими переменными есть примерная зависимость. Ну, это возникает в разных ситуациях. Как правило, могут существовать регрессоры, которые меряют примерно одно и то же. Например, валютный курс, померянный на начало торгов, начало дня и на момент окончания торгов. Естественно, они примерно равны. Соответственно, имеется примерная зависимость, что курс на начало дня примерно равен курсу на конец дня. И второй фактор — это наличие естественных взаимосвязей между переменными. Например, если рассмотреть такие регрессоры потенциальные, как стаж работы, количество лет обучения и возраст, то между ними существует примерное соотношение. Возраст примерно равен количеству лет обучения, плюс стаж работы. Понятно, что есть люди не работавшие. Понятно, что есть кто-то, кто болел или просто решил не выходить на работу, но в целом для большинства людей, которые обучались, а потом вышли на работу, соответственно, возраст будет равен сумме двух оставшихся переменных. Каковы же последствия нестрогой мультиколлинеарности? Основным моментом, который следует отметить, что нестрогая мультиколлинеарность не нарушает стандартных предпосылок, в частности предпосылок теоремы Гаусса-Маркова, которую мы обсуждали. То есть оценки, которые мы получаем методом наименьших квадратов, они существуют. Эти β с крышкой — они несмещенные, у них наименьшая дисперсия среди несмещенных оценок. Мы можем проверять гипотезы стандартным способом. И в этом смысле мультиколлинеарность гораздо меньшее зло, чем, скажем, гетероскедастичность или автокорреляция, о которых мы будем говорить в следующих лекциях. Но тем не менее, мультиколлинеарность имеет свои последствия. Мы уже писали, что стандартную ошибку коэффициента, можно определить как отношения σ-квадрат с крышкой к сумме квадратов остатков в регрессии j-того, j-той объясняющей переменной на остальные объясняющие переменные. Соответственно, что произойдет, если существует какая-то примерная линейная зависимость между объясняющими переменными? И, допустим, что j-тая объясняющая переменная входит в эту формулу зависимости между регрессорами. Соответственно, в этом случае наш регрессор будет замечательно объясняться другими. Ну, скажем, возраст будет замечательно объясняться стажем работы и количеством лет обучения. И, соответственно, RSS в j-той регрессии, сумма квадратов остатков, будет очень маленькой. И, стало быть, стандартная ошибка коэффициента β с крышкой j-того будет очень большой. Еще используют такое простое разложение для стандартной ошибки оценки j-того коэффициента, что это 1 делить 1 минус R-квадрат в j-той регрессии, то есть в регрессии j-той объясняющей переменной, на все остальные помножить, на σ-квадрат с крышкой в основной регрессии, делить на общую сумму квадратов j-того регрессора. Соответственно, основным последствием мультиколлинеарности нестрогой являются высокие стандартные ошибки коэффициентов β с крышкой. В свою очередь, высокие стандартные ошибки коэффициентов β с крышкой приводят к тому, что доверительные интервалы для настоящих неизвестных коэффициентов становятся шире. Коэффициенты сами получаются незначимыми, то есть гипотеза о том, что истинный коэффициент равен 0, не отвергается. Потому что доверительный интервал будет широким, будет включать в себя 0, и, соответственно, гипотеза о том, что неизвестный коэффициент равен 0, не будет отвергнута. И модель получается в каком-то смысле очень неустойчивой. В условиях достаточно ярко выраженной нестрогой мультиколлинеарности может сложиться такое, что при добавлении всего лишь одного наблюдения или при выкидывании всего лишь одного наблюдения, оценки коэффициентов резко меняются из-за того, что у них большие стандартные ошибки. С точки зрения исследователя, типичным проявлением нестрогой мультиколлинеарности является следующее. Исследователь видит несколько групп незначимых коэффициентов. То есть второй, скажем, регрессор незначим, третий регрессор незначим. Он их выкидывает оба, а модель при этом резко ухудшается. Вот это типичное проявление мультиколлинеарности на практике. Когда мы видим, что по отдельности коэффициент незначим, несколько коэффициентов, а в то же время все их выкинуть было бы не верным, потому что от кого-то из них зависимость явно есть. Для обнаружения мультиколлинеарности используют следующие количественные признаки. Прежде всего, наиболее распространенным является показатель вздутия дисперсии или коэффициент вздутия дисперсии, который считается отдельно для каждой объясняющей переменной. То есть для каждой входящей в модель объясняющей переменной у нас будет свой показатель вздутия дисперсии. Соответственно, он определяется как 1 делить на 1 минус R-квадрат в j-той регрессии, то есть в регрессии этой объясняющей переменной на остальные объясняющие переменные. Почему этот показатель так называется? Название происходит в связи с представлением стандартной ошибки j-того коэффициента в виде показателя вздутия дисперсии, домноженного на σ-квадрат с крышкой, деленное на сумму квадратов, общую сумму квадратов j-того регрессора. Соответственно, при большом коэффициенте вздутия дисперсии, то есть при сильной зависимости этого регрессора от остальных, стандартная ошибка коэффициента будет существенно выше. И также часто используют такой простой показатель, просто как выборочные корреляции. Смотрят выборочные корреляции между отдельными регрессорами, и если они слишком велики, то это тоже является показателем мультиколлинеарности. Тут нет никакой строгой границы, но тем не менее в ряде источников приводят границы для показателя вздутия дисперсии — 10 и для корреляции — около 0,9. То есть такие показатели — значения коэффициентов вздутия дисперсии больше 10 или корреляции между регрессорами больше 0,9 — может говорить о потенциальном наличии, о потенциальной проблеме мультиколлинеарности. Далее мы рассмотрим, что можно сделать с нестрогой мультиколлинеарностью.