[МУЗЫКА] [МУЗЫКА] Наконец, настала пора добавить в нашу линейную модель еще один дискретный предиктор. И когда мы добавляем еще один группирующий фактор, наш однофакторный дисперсионный анализ превращается в многофакторный. Допустим, представьте себе такую ситуацию, что мы хотели выяснить, как зависит концентрация витамина C от цвета плодов: желтые они, зеленые или красные. И от их вида: как только мы добавили фактор вид, у нас дисперсионный анализ превратился в двухфакторный. И в этом дисперсионном анализе появляется взаимодействие факторов. Что же это такое? Взаимодействие факторов возникает в том случае, если эффект фактора оказывается разным в зависимости от уровней другого фактора. Вот на этом рисунке перед вами вы видите, как может зависеть концентрация витамина C от цвета плодов для перцев и для яблок. Здесь цифры буквально похожие на настоящие, мы старались. И вы видите, что в целом витамина C больше содержится в перцах, чем в яблоках, но при этом смотрите: у перцев самые витаминные — это желтые перцы, а у яблок самые витаминные — это зеленые яблоки. То есть эффект цвета, он разный для перцев и для яблок. Это и называется взаимодействием факторов. По графику довольно легко определить, есть взаимодействие в ваших данных или нет. Если взаимодействие есть, то линии окажутся непараллельны. В случае если взаимодействия нет, они пройдут параллельно. Посмотрите на график в левом верхнем углу. Это график, который описывает такую ситуацию, когда нет значимого эффекта ни одного из факторов. Фактор A мы обозначаем его градации по оси x, а фактор B обозначим разными цветами. Вы видите, что линии полностью накладываются, группировка не влияет. Мы наблюдаем одинаковую картину для всех значений. В случае если нет взаимодействия, может быть такая ситуация, когда эффект одного из факторов значим. Но при этом он будет одинаков для градации второго фактора. Смотрите, вот на верхнем графике линия синяя для группы B1 проходит немного выше, чем для группы B2. Он расстояние между этими линиями везде одинаково, то есть оно не зависит от значения другого фактора, от значения фактора A. Та же самая ситуация у нас на нижнем графике. То есть опять же вы видите, что расстояние между линиями абсолютно одинаково. Вне зависимости от значения фактора A значение фактора B1 всегда будет больше, чем для B2. Если есть взаимодействие, линии пройдут не параллельно. Например, в данном случае мы видим, что для группы B1 при значении фактора A1 переменная-отклик будет принимать более высокие значения. И вот в этом случае линии тоже идут не параллельно — вы видите, что даже направление различий меняется на противоположный. Если на уровне A1 вы видите, что синяя линии оказалась выше, то на уровне A2 синяя линия оказывается в самом низу. Это и есть взаимодействие факторов, то есть разный эффект для разных групп другого фактора. Если взаимодействия нет, то мы легко можем проинтерпретировать главные эффекты фактора. Действительно, посмотрите вот на эту картинку. Средние значения в группах по обоим факторами приведены на левом графике, но мы можем попробовать мысленно посчитать средние значения для каждого из факторов. Например, можем посчитать средние значения по фактору A. Нам для этого нужно вот это вот усреднить — мы получим вот эту точку, вот эти две усреднить, и мы получим вот эту точку немного ниже. То есть, собственно говоря, эта линия пройдет в середине между этими двумя графиками. И вы видите, что значения переменной-отклика для группы A2, они оказались ниже. И точно то же самое вы видели на исходном графике, который содержит полную информацию. То есть главный эффект фактора A прекрасно читается, и мы его можем видеть на обеих картинках. Точно таким же образом, совершенно аналогично мы можем получить средние по фактору B. Для этого нам нужно усреднить точки одного цвета. Например, если мы посчитаем средние значения между вот этими точками, мы получим вот эту точку. Если мы усредним значения синих точек, мы получим вот эту точку. И вы видите, что для группы B2, которая у нас обозначена красным цветом, значение переменной-отклика, оно будет выше, чем для группы B1. Точно то же самое мы видели на исходном графике. То есть линия B2, она всегда оказывалась выше, чем линия B1. Совершенно легкая для интерпретации ситуация. А теперь давайте добавим взаимодействия. Можно себе представить вот такую, например, ситуацию, где эти линии для разных групп по фактору B, они идут не параллельно, на одном из отрезков. И тогда если мы усредним значения по фактору A, то получится как будто бы переменная-отклик на уровне A1 и на уровне 2 принимает очень похожие значения, что явно не так. На исходном графике вы видите, что в зависимости от категории по фактору B у нас может быть совершенно разный результат. И это непорядок. Есть взаимодействие факторов, но мы не можем по главному эффекту понять, как устроены данные. Нам нужно анализировать сразу взаимодействия. Может быть, еще более сложная ситуация. Представьте себе, если у нас меняется направление различий. Если на уровне A1 красная линия выше, то на уровне A3 эта красная линия оказывается в самом низу. В этом случае если мы усредним значение для разных групп по фактору A, мы вообще не обнаружим никакого эффекта — главный эффект не виден. Но вы прекрасно видите, что на самом деле он есть, просто мы должны его учитывать, мы должны его рассматривать для каждой категории по фактору B отдельно. И это очень сложная ситуация. На самом деле всегда, когда у вас есть взаимодействие в данных, старайтесь не анализировать главные эффекты, интерпретируйте взаимодействие. Иначе очень легко ошибиться.