Здравствуйте, друзья! Рад, что вы до сих пор здесь. В предыдущем видео мы с вами обсудили вопрос постановки гипотез. Кроме того, мы выделили их основные типы. Разные типы гипотез предполагают разные типы исследований. Однако, для всех исследований, вне зависимости от типа, существуют некоторые общие моменты. О них мы с вами и поговорим в ближайших видео. Как и в предыдущих случаях, основной пример – исследование под названием «Взаимосвязь питания и самочувствия котиков». Первый момент заключается в возможности переноса результатов исследований. Дело здесь в том, что когда мы пытаемся проверить наличие взаимосвязи между питанием и самочувствием котиков, мы стремимся чтобы наши выводы были справедливы для всех котиков. Но изучить всех котиков нереально. Ну, или во всяком случае, очень дорого. Их более шестиста миллионов. Поэтому мы вынуждены брать для исследования только малую их часть. Все объекты, то есть 600 миллионов котиков, на которых мы пытаемся распространить результаты нашего исследования, называются генеральной совокупностью. Те же объекты (котики), которые нам реально доступны, называются выборкой. Чтобы результаты исследования хорошо переносились, важно чтобы выборка была максимально похожей на генеральную совокупность. Для этого нужно чтобы выполнялось два условия. Первое – выборка должна быть репрезентативной. И, второе – выборка должна быть достаточной по объему. Репрезентативность означает, что выборка по своим характеристикам соответствует генеральной совокупности. То есть, если среди ваших котиков 20% являются красными, то и в выборке их должно присутствовать приблизительно столько же. Чтобы выборка была репрезентативной, необходимо, чтобы объекты попадали в нее случайным образом. Иными словами, все котики в генеральной совокупности должны иметь равные шансы попасть в вашу выборку. Если принцип случайности не соблюдается, выборка будет нерепрезентативной. Например, часть котиков может кусаться и у вас возникнет желание не брать их для исследования. Но, кусачие котики могут отличаться по важным для нас признакам. Например, у них может быть лучше аппетит или они склонны хуже себя чувствовать. Следовательно, исключая таких котиков из исследования, вы рискуете сделать свою выборку не похожей на генеральную совокупность по этим параметрам. Для некоторых наук обеспечить случайный отбор в выборку поистине непростая задача. Особенно, если мы изучаем людей. Часть из них может быть для нас недоступна, другие могут нас не понять, а третьи вообще откажутся с нами разговаривать. Поэтому, по мнению некоторых исследователей, абсолютная репрезентативность в социальных и психологических науках является невозможной. Однако, если вы работаете с другими объектами, то провести случайный отбор несложно. Для этого существует несколько способов. Наиболее часто используемый – с помощью генератора случайных чисел. Каждому котику из генеральной совокупности мы ставим в соответствие случайное число. Затем мы упорядочиваем все эти числа от наибольшего к наименьшему и берем первые десять, сто или тысячу котиков в выборку. Помимо репрезентативности у выборки должен быть достаточный объем. Опять-таки, представим, что в генеральной совокупности 20% красных котиков. Если вы возьмете в случайную выборку 10 котиков, то вероятность того что среди них будет ровно 20% красных – небольшая. Вполне возможно, их вообще там не будет. Однако, если вы возьмете выборку из ста котиков, то вероятность того, что среди них будет около 20% красных существенно выше. Заметьте, в обоих случаях выборки являются репрезентативными. Это обеспечивается случайностью отбора. Однако, соответствие второй будет выше. В общем случае, чем больше объем выборки – тем лучше. Однако, с добавлением каждого нового котика прирост точности уменьшается. Например, разница в точности между выборками в 25 и 50 котиков гораздо выше чем между выборками в 25 000 и 50 000 котиков. А количество усилий для набора каждого нового котика остается постоянным. Поэтому, здесь нужен компромисс. Объем выборки должен быть не то чтобы большим. Он должен быть достаточным. Достаточный объем выборки рассчитывается с помощью специальных формул. Их довольно много и они непростые, поэтому приводить их здесь мы не будем. Начинающим исследователям лучше пользоваться специальными калькуляторами. Один такой можно найти по ссылке после лекции. Чтобы вычислить объем выборки по такому калькулятору, необходимо ввести три показателя – размер генеральной совокупности, ошибку выборки и доверительную вероятность. Первый показатель – размер генеральной совокупности. Эти данные можно взять у организаций которые занимаются статистическими исследованиями, в частности если вы изучаете какую-то группу россиян, то такой организацией может быть Росгосстат. Второй показатель – ошибка выборки. Он говорит о том, какое различие между выборкой и генеральной совокупностью является допустимым. Иногда этот показатель называется доверительным интервалом выборки или погрешностью выборки. Этот показатель вы определяете сами. Чем он меньше – тем лучше. Больше 0.05-ти выбирать следует. И, наконец, доверительная вероятность. По этому показателю судят о точности оценки размера выборки. Его тоже надо выбирать самим. Как правило, в калькуляторах дается два варианта – 95% и 99%. Последний более точен. Как интерпретировать результаты расчета? Предположим, что вы ввели такие значения: размер генеральной совокупности – 600 миллионов, ошибка выборки – 2% и доверительная вероятность – 95%. Если вы введете такие параметры в калькулятор, вы получите размер выборки равный 2401-му котику. Как это понимать? А понимать надо так: выборка размером в 2401 котик отличается от генеральной совокупности в 600 миллионов не более чем на 2% с вероятностью в 95%. Что будет если вы захотите большей точности, например, в 99%? Тогда калькулятор нам выдаст большее число, чуть больше 4000 котиков. А если вы еще и захотите, чтобы выборка была более похожей на генеральную совокупность, то вы можете уменьшить ошибку выборки до 1%. Тогда вам понадобится 16 с половиной тысяч котиков. В общем случае, чем больше генеральная совокупность и доверительная вероятность и чем меньше ошибка выборки, тем больше котиков должно быть в этой выборке. Итак, что мы вынесли из этого видео. Во-первых, в большинстве случаев, мы не можем исследовать все объекты, которые нам интересны. Поэтому нам приходится формировать выборки. Во-вторых, выборка должна быть репрезентативной. То есть, ее нужно выбирать из генеральной совокупности с помощью случайного отбора. В-третьих, чем больше объем выборки – тем точнее она отражает генеральную совокупность. Однако, с каждым новым объектом прирост точности уменьшается. В-четвертых, существует способ расчета достаточного объема выборки и калькуляторы, с помощью которых это можно сделать. В следующем видео мы коснемся другого, общего для всех исследований вопроса, а именно вопроса проверки гипотез.