[МУЗЫКА] [МУЗЫКА]
[БЕЗ СЛОВ] Тема
сегодняшней лекции: работа с пропущенными наблюдениями.
В своих исследованиях вы часто можете столкнуться с ними,
с пропущенными наблюдениями.
Будь то данные в соцопросах, и почему-то часть людей отказалась отвечать на часть
вопросов, либо какие-то технические данные, и вы почему-то не смогли собрать
часть показателей — такое часто встречается, с ними надо работать.
Во-первых, хорошо бы знать причину: почему появились пропуски?
На основе их анализа мы можем уже нечто понять.
Допустим, у вас были соцопросы, и много людей не ответило на один и тот же вопрос.
Возможно, вопрос сформулирован неверно и его надо переформулировать.
Либо часть опрашиваемых людей, у них все хорошо, есть пропуски, допустим,
а у кого-то нет пропусков — все данные заполнены.
Здесь возможна фальсификация, то есть часть людей, возможно,
заполняла их как-то наугад.
И хорошо знать причину,
потому что представим такую ситуацию: вы опрашиваете людей,
допустим, жителей города Новосибирска, и хотите узнать их средний вес.
Опрашиваете мужчин и женщин.
И, по каким-то причинам, женщины отказались отвечать на этот вопрос.
И потом вот, оценив как-то среднее, и у вас получилась некоторая средняя величина.
Но это будет, скорее всего, средний вес мужчин Новосибирска, а не женщин.
Потому что здесь была какая-то систематическая ошибка.
То есть часть респондентов по каким-то причинам отказалась отвечать.
И выборка будет уже не репрезентативна.
Ну допустим, что вы знаете причины, у вас причины случайны,
и просто как-то там пропуски существуют непонятно почему.
Что с этим делать?
Самый простой способ — это просто исключить такие наблюдения.
Конечно, это приведет к потере информации.
Однако если у вас данных много, а пропусков немного,
то можно пойти на такую жертву.
Однако если у вас данные соцопросов, и один объект имеет много признаков,
например, это семейное положение, количество детей, доход, возраст,
пол и так далее, и каждый человек взял, и на что-то не ответил, например.
Кто-то скрыл свои доходы, кто-то — семейное положение, кто-то — количество
детей, мало ли что, и в итоге получится, что когда мы исключим все данные
с пропусками, у нас вообще не останется данных, и будет нечего анализировать.
Поэтому необходимо как-то их заменять.
Мы рассмотрим несколько способов замены на примере данных о доходах людей и
их возрасте.
То есть опросили людей, узнали их возраст и доходы.
Всего опросили 636 человек в определенном городе, и 359 человек отказались отвечать.
Мы оценили по ним среднее, и средний доход равен 32 594,
а медиана равна 30 000, ну, несколько меньше.
И построили гистограмму.
И дальше мы будем заменять пропуски, все 359 значений чем-то,
и смотреть как будет меняться гистограмма, и среднее, и медиана.
Первое, что приходит в голову, это обычно заменить средним просто.
Посчитать среднее, и заменить все значения.
И вот, что получится.
Вот такая вот гистограмма.
По ней ничего теперь не понятно.
Видно, что одно значение выбивается просто от всех.
Ничего не можно по ней сказать.
И также видим, что медиана сместилась вправо и стала равной среднему.
То есть мы настолько сильно испортили всю выборку,
что даже медиана поплыла куда-то вправо.
И это очень плохо, менять таким средним.
Потому что если у вас есть хоть один выброс,
то он тут же усилится и все распределение станет гораздо хуже.
Можно, конечно, медианой, тогда получится вот так.
То есть опять это какой-то прямоугольник.
На самом деле это гистограмма, построенная с помощью метода Фридмана – Диакониса.
Ну и как видим, метод Фридман – Диаконис нас не выручил, он тут как-то совсем плохо
сработал, потому что мы настолько сильно заменили медианой все просто,
что межквартильный размах плохо посчитался, и, соответственно,
гистограмма получилась вот такой.
Также здесь видим, что все сместилось влево.
То есть медиана осталась такой же, а вот среднее стало меньше,
стало равно чуть более 31 000.
То есть люди стали получать меньше по нашим исследованиям.
Также можно построить гистограмму с помощью метода Стерджесса.
Мы построили и получилась вот такая вот.
Ну тоже не очень информативная, и видно, что одно значение сильно выбивается,
а именно медиана.
Так что же делать?
Правильнее всего заменять пропущенные значения чем-то случайным,
но при этом связанным с вашей выборкой.
Например, соседями.
Предположим, что ваша выборка как-то упорядоченна.
А точнее, никак не упорядоченна.
Абсолютно случайные между собой наблюдения находятся.
И где-то есть пропущенные наблюдения, где-то есть не пропущенные.
Так вот, что нам нужно делать?
Нужно искать около пропуска какого-то ближайшего соседа,
который не является пропуском, и над ним совершать некоторую функцию.
Например, вычесть соседа слева, соседа справа,
сосчитать их средне арифмитическое, либо медиану.
Вот таким образом мы построили вот такую гистограмму.
То есть мы заменили все наблюдения средним арифметическим по двум соседям,
и получилась вот такая вот выборка.
Гистограмма довольно приличная получилась, потому что здесь даже угадывается какое-то
либо логнормальное, либо нормальное распределение, и ее можно анализировать.
Таким образом, при работе с пропусками плохо заменять все одним значением,
будь то средним, медианой, что угодно.
Это всегда плохо.
Не так плохо — это исключить часть наблюдений.
Если вам позволяют данные, можете исключить.
Если данные не позволяют, либо вы по каким-то причинам не хотите,
то лучше всего менять чем-то случайным, связанным с выборкой.
Например, соседями.
И здесь уже как вам будет угодно.
Некоторая функция соседями может быть, как то — среднее, медиана,
что угодно, либо сам сосед — слева, справа, через одного.
Как вы захотите.
А в следующей лекции мы рассмотрим кодирование неопределенных ответов.