[МУЗЫКА] [МУЗЫКА]
[ШУМ] Итак,
коэффициент корреляции Пирсона — это хорошая мера линейной связи признаков,
если у нас метрические шкалы и если данные без аномалий.
То есть у нас нормальное распределение или приближенное к нему,
без выбросов и всего такого.
Но что же делать, если данные у нас все-таки с аномалиями, если распределение
отличается от нормального существенно или если вообще шкала неметрическая,
то есть порядковая.
Коэффициент корреляции все равно хочется измерить, потому что мы предполагаем,
что есть линейная связь между признаками.
Если признаки упорядочены, собственно, почему нет?
В таком случае, что мы можем делать?
Если у нас коэффициент корреляции Пирсона не применим,
у нас может быть две ситуации.
Во-первых, у нас смесь в данных и тогда он не применим принципиально.
Тогда нужно нам выделять эти группы,
находить и исследовать взаимосвязь отдельно.
Либо если смеси в данных нет, а есть только вот либо другой тип шкалы,
либо отклонение в форме распределения, тогда есть аналоги коэффициента корелляции
Пирсона, которые называются коэффициентами ранговой корелляции.
Коэффициент ранговой корелляции Спирмена есть и коэффициент
ранговой корелляции тау Кендалла есть.
Чем они похожи на коэффициент корелляции Пирсона?
Похожи они тем, что, в общем, тот же принцип.
Меняются они от −1 до 1, где −1 означает полную отрицательную линейную взаимосвязь,
+1 — это прямая корреляция, положительная линейная взаимосвязь,
0 — это отсутствие линейной взаимосвязи.
А по величине коэффициента корреляции мы можем говорить о силе.
По знаку направленности, по величине, по силе — все то же самое.
Но в отличие от коэффициента корреляции Пирсона, ранговые коэффициенты у нас
основаны не на абсолютных значениях, а на ранговых, то есть на абсолютном
значении признака, а на порядковой позиции этого значения в вариационном ряду.
Давайте посмотрим, что это меняет, собственно, на одном простом примере.
Если мы посмотрим на формулы сначала, и мы увидим,
что коэффициент корреляции Пирсона — вот они в числителе, абсолютные значение.
И каждое значение, как бы сильно оно не отклонялось от среднего,
будет участвовать в расчете формулы и тем самым все портить.
Если мы посмотрим на коэффициент корреляции Спирмена — именно его
формула написана на экране сейчас, то здесь вот это вот d² — это разница рангов.
Разница рангов, [НЕРАЗБОРЧИВО] это не абсолютных значений,
а разница порядковых позиций xi, xj по каждому наблюдению.
Давайте уже, собственно, посмотрим, что это меняет.
Вот пример: у нас есть организация, в которой работает 10 человек.
Вы видите зарплаты, вы видите стаж работы.
И вы видите опять-таки на схеме,
что взаимосвязь здесь у нас линейная и достаточно очевидная.
Чем дольше человек работает в компании, тем выше зарплата, которую он получает.
И вот уже, по привычной вам схеме у нас оно разделено в соответствии по средними
значениями по x и по y, и мы видим в ++ отклонения, в −− отклонения,
прямая — положительная корреляция, все понятно.
Но что произойдет,
если мы изменим немножечко ситуацию и если мы одного человека уволим с зарплатой,
скажем, 18 тысяч рублей, и возьмем вместо него человека,
у которого стаж работы только год, а зарплата ему будет 150 тысяч рублей.
Не важно, почему — либо суперквалификация, либо суперсвязи,
либо еще какие-нибудь другие причины, вот он у нас есть.
И вот он появился на схеме вот в этом вот месте, вы его видите,
и это поменяло в схеме все.
Как вы видите, распределения точек по вот этим вот сегментам,
которые отсекаются линиями по среднему x и y, изменилось.
И на значение коэффициента корреляции Пирсона это сказалось пагубнейшим образом.
Если на предыдущую ситуацию он был 0.9 равен, то здесь он равен 0.75,
да еще и знак сменил.
То есть связь та же, работа и заработная плата,
у нас из положительную превратилась в отрицательную,
хотя для 9 человек из 10 в этой компании вообще ничего не изменилось.
В случае с коэффициентом корреляции Спирмена связь стала чуть-чуть менее
линейной, но по принципу она не изменилась — знак положительный,
коэффициент корреляции с 0.9 снизился до 0.5,
но в целом показывает прямую связь: чем больше отработал, тем больше получаешь.
Почему так происходит?
Во-первых, если мы смотрим на абсолютные значения, появление человека со
150 тысячью существенно влияет как на среднюю, так и оказывается выбросом, как
вот в той ситуации с нетипичными странами, здесь такая же нетипичная зарплата.
И из-за этого все ломается, из-за этого коэффициент корреляции Пирсона,
чувствительный к выбросам, начинает показывать то,
что никак не отражает реальную ситуацию в организации.
Но если мы превратим вот это вот положение из абсолютных значений в ранги — в случае
с зарплатами все понятно.
Вот до замены у нас от одного до 10: чем больше значения зарплаты, тем старше ранг.
В случае со стажем работы что у нас происходит?
Поскольку у нас здесь есть повторяющиеся значения,
мы по известному принципу считаем средний ранг, присваиваем каждому наблюдению,
и получается вот такая ситуация по рангам.
И нормальная положительная корреляция — в общем, с ростом одного растет другое.
Что происходит, когда мы заменяем одного человека?
В первом случае у нас зарплата, выросшая в 10 раз, меняла все,
здесь она у нас становится всего лишь навсего самым старшим рангом.
То есть он становится десяткой, естественно,
что-то это меняет в логике распределения данных, но далеко не так принципиально.
С рангами в верхней части тоже немножечко пересчет произойдет,
но принципиально опять же ничего не изменится.
Мы видим, что есть один нетипичный случай — он немножко нарушает линейность,
но в целом линейная взаимосвязь остается.
Таким образом, если у нас признаки интервальные нормально распределены,
без патологий, то мы можем использовать коэффициент по корреляции Пирсона как
хорошую меру для оценки линейной взаимосвязи признаков.
Но если у нас есть аномалии или выбросы или если признак измерен неметрической
шкалой, пользуйтесь коэффициентами корреляции Спирмена или Кендалла.
А в следующей лекции поговорим о том,
как оценивать статистическую значимость этих коэффициентов.