Уважаемые слушатели! При анализе статистических данных очень важным является выбор правильного критерия анализа. Для того чтобы сделать грамотные адекватные выводы, нужно выбрать правильный критерий. Выбор критерия в первую очередь зависит от целей вашего исследования и от типов анализируемых данных. Тип анализируемых данных, в свою очередь, зависит от того, в каких шкалах производятся измерения. И мы с вами приступаем к изучению измерительных шкал и типов данных, с которыми вы можете столкнуться при проведении статистического анализа. Для того чтобы проиллюстрировать важность выбора правильной шкалы и допустимых действий, которые вы производите над наблюдениями, я хочу начать данную тему с рассмотрения одного примера. Предположим себе ситуацию: проводится экзамен по высшей математике. В билете имеется два вопроса: один вопрос теоретический и второй вопрос практический, то есть необходимо решить задачу. Студент получает оценку за экзамен, которая складывается из двух оценок, полученных по теории и по практике, то есть это обычный средний балл за весь ответ на билет экзамена. Далее предположим, что некоторый студент очень, очень хорошо выучил всю теоретическую часть, но совершенно не умеет решать задачи. Он приходит на экзамен, вытаскивает билет, на первый вопрос дает абсолютно идеальный ответ, а к решению задачи даже не приступает. Посмотрим, как мы можем оценить работу такого студента. Итак, для начала рассмотрим обычную пятибалльную шкалу, к которой мы все привыкли еще со школы. Пятибалльная система предполагает следующие оценки: оценка пять — это отличный ответ, четыре — это "хорошо", три — "удовлетворительно" и ниже — это неудовлетворительный ответ, за который оценка не выставляется. Беря работу нашего студента, мы видим прекрасный ответ на первый теоретический вопрос и, конечно же, ставим ему оценку "отлично". Поскольку к решению задачи он даже не приступил, оценить эту работу мы не можем. Обращаю ваше внимание на то, что ставить оценку два в данном случае некорректно. Если вы хотите, чтобы эта оценка участвовала усреднении, мы не можем поставить два за полное отсутствие ответа, так как два представляет собой 40 процентов от пятерки, и для того чтобы получить эту оценку, необходимо хотя бы частично дать ответ на вопрос. Поскольку наш студент даже не переписал условие задачи и не приступил к ее решению, этот ответ мы просто не оцениваем, то есть ставим за него ноль баллов. Тем самым средняя оценка, которая может быть получена студентом за такой ответ, составляет 2.5 балла, но при большом желании мы можем округлить эту оценку до трех, поставить ему итоговую слабую оценку "удовлетворительно". Теперь предположим тот же самый эксперимент, но с другой системой оценивания. Иногда на некоторых факультетах в некоторых вузах вводится рейтинговая система, она у всех разная. Рассмотрим пример одной из подобных систем. Предположим, что ноль предлагается ставить студенту в случае неявки на экзамен. Единица выставляется в том случае, если студент пришел на экзамен, взял билет, но ответа на него не дал. Три балла по рейтинговой системе выставляются за нашу стандартную оценку "удовлетворительно". Два — это три с минусом, четыре балла — это три с плюсом. Аналогично шесть — это "хорошо", пять — это классическая четверка с минусом, семь — это четыре с плюсом. И аналогично для оценки "отлично". Если мы будем рассматривать ту же самую работу того же самого студента, где дан прекрасный, абсолютно без помарок ответ на первый теоретический вопрос и нет никакого ответа на практическую задачу, мы должны поставить ему 10 баллов за теорию и единицу за практику, так как студент на экзамен пришел и билет брал. Соответственно, если мы попробуем дальше к этим оценкам применить ту же самую формулу расчета среднего балла, получится 5.5. Поскольку у нас здесь приведена целочисленная шкала, по правилам округления это дает нам шесть, то есть твердую оценку "хорошо". Что у нас изменилось? Изменилось ли качество знаний студента? Конечно же, нет. Но при этом по двум разным системам мы получили совершенно одинаковые оценки. При решении математических статистических задач выбор метода анализа, конечно же, никаким образом не должен влиять на выводы. Получается, что по крайней мере одна из предложенных систем является некорректной, раз они дают разные ответы. Эти шкалы не эквивалентны. И в ближайших уроках мы с вами разберемся, какие шкалы существуют, какие преобразования шкал являются эквивалентными и не нарушают наших выводов и с какими типами случайных величин мы можем столкнуться в результате нашего анализа. При проведении статистического эксперимента мы сталкиваемся с необходимостью обработки данных, которые, зачастую, представляют собой выборки, полученные при наблюдении за некоторой случайной величиной. В зависимости от природы случайной величины, ее закона распределения, мы получаем данные разных типов. Основным при определении типа данных является шкала, в которой производятся измерения. Тип данных, в свою очередь, определяет выбор метода анализа. Рассмотрим, с какими случайными величинами мы можем столкнуться в процессе проведения эксперимента и в каких шкалах они измеряются. Рассмотрим, с какими типами случайных величин мы можем столкнуться в процессе проведения эксперимента и в каких шкалу они измеряются. Например, для некоторого участника спортивного соревнования можно фиксировать имя, пол, возраст, рост, вес, результат, который он показал в соревновании, например, время забега, длину прыжка и прочее. Также на основании полученных результатов можно определить место, которое займет спортсмен в соревновании. Данная информация может быть как количественной, так и порядковой или качественной. Например, возраст, рост, вес, длина и время представляют собой числа, несущие количественную информацию. По ним мы можем сказать, какое значение больше или меньше какого, а также мы можем указать, на сколько больше и на сколько меньше. Место является порядковой величиной, описывающей позицию объекта в упорядоченном ряду. Для них мы также можем сказать, какое значение больше, а какое меньше, но вот уже на сколько, этого мы сказать не можем. Например, если в забеге один спортсмен занял первое место, а другой — второе, мы знаем, что тот, кто занял первое место, пробежал быстрее, но мы не можем указать, на сколько именно. В то время как количественная информация, которая дает нам точное время, за которое спортсмен пробежал дистанцию, может показать, на сколько именно один участник был быстрее другого. Продолжая рассматривать тот же пример, можно сказать, что имя и пол участника являются номинальными величинами, они просто называют объекты, как, например, имя, или относят объекты к той или иной группе, как, например, пол. Все участники у нас могут быть разделены на две группы: мужчины и женщины. Но при этом номинальные величины не устанавливают никаких соотношений между этими значениями, они используются только как классифицирующие величины. Рассмотрим подробнее, что такое шкалы, и в каких шкалах могут измерять свойства исследуемых объектов. Измерение — это алгоритмическая операция, которая данному наблюдению или объекту в зависимости от проявления у него анализируемого свойства ставит в соответствие определенное значение. Это может быть число, номер или символ. Шкалы устанавливают соответствие между исследуемыми объектами и их свойствами. По дифференцирующей способности шкалы имеют разную силу. Говорят, что некоторые шкалы более сильные и несут в себе больше информации об анализируемом объекте и шкалы более слабые. Для определения типа шкалы следует обратить внимание на следующие моменты. Во-первых, это наличие фиксированной нулевой точки отсчета, которая соответствует отсутствию измеряемого свойства. Например, при измерении длины, веса у нас может быть объект нулевой длины или имеющий нулевой вес. Второй момент, на который следует обращать внимание, это упорядоченность значений, которая определяет, что один объект больше или меньше другого. Это могут быть места, занятые в каком-то соревновании, это могут быть полученные оценки или, например, частота проявления какого-то признака (никогда, иногда, часто, всегда). Мы знаем, что первое место лучше второго. Мы знаем, что оценка "хорошо" лучше, чем "удовлетворительно", но хуже, чем "отлично", но при этом мы не можем сказать, насколько четверка лучше пятерки, так же как мы знаем, что часто — это чаще, чем иногда, но, как правило, мы не можем назвать точные цифры и не можем указать, на сколько существенна эта разница. Третий момент, на который стоит обращать внимание при определении шкалы, это интервальность, которая означает, что для одной пары значений интервал между ними больше, меньше либо равен интервалу между другой парой значений измеряемого свойства. Шкалы разделяют на две группы. Это метрические и неметрические шкалы. Метрические несут в себе больше количественной информации, неметрические такую количественную информацию в себе не несут. К неметрическим шкалам относятся: номинативная шкала, которую еще называют качественной, номинальной или классификационной; также к неметрическим шкалам относят порядковую шкалу, которую еще называют ранговая или ординальная. К метрическим или количественным шкалам относят интервальную шкалу, шкалу разностей, шкалу отношений и абсолютную шкалу. Допустимые преобразования самих шкал не меняют соотношений между объектами, то есть, возвращаясь к нашему примеру про оценки по классической пятибалльной системе и по рейтинговой десятибалльной системе, получается, что там было использовано недопустимое преобразование шкалы. Мы к этому вопросу еще вернемся чуть позже. Но не надо путать допустимые преобразования шкал с преобразованиями самих величин, измеренных в этих шкалах. В качестве примера преобразования шкал можно привести примеры длины, когда метры переводятся в сантиметры, меры веса (килограммы в граммы) и прочее. Давайте перейдем к рассмотрению непосредственно самих основных шкал и начнем с группы неколичественных шкал. Это шкала наименований и порядковая шкала. Шкала наименований, она же номинальная, категориальная или качественная. Она представляет собой конечное множество различных значений. Для нее нет ни начальной точки, ни интервальности, ни упорядоченности. Это просто неупорядоченная совокупность значений, описывающих свойства объектов, например, пол, гражданство, цвет глаз, район города и прочее. В данной шкале допустимы только взаимно-однозначные преобразования. Например, если у нас в базе имеется информация о людях, и для нас важно, к какому полу относится тот или иной объект, и для нас важно значение пола, например, в изначальной таблице мы можем указать пол мужчины или женщины или сокращенно м, ж, а также мы можем закодировать их с помощью цифр ноль и один, но при этом числа будут использоваться только в качестве меток и не будут нести в себе никакой количественной информации. Мы не можем их сравнивать, говорить в данном случае, что один больше нуля, мы не можем их складывать и производить другие арифметические действия. Также примером номинальной величины, которая использует числовые обозначения, служат номера телефонов, номера документов, номера автомобилей и прочие. Такие шкалы служат только для различия объектов, либо для их классификации и соотнесения к той или иной группе. Для анализа данных, измеренных в таких шкалах, в основном применяется частотный анализ. После того, как все объекты классифицированы, то есть им приписаны метки, относящие их к той или иной группе, подсчитываются частоты по группам и между ними определяются зависимости, закономерности и так далее. Следующая шкала — порядковая. В отличие от номинальной, она устанавливает не только различия, но и порядок между объектами. При этом могут использоваться как числовые, так и нечисловые метки. Например, говоря о спортивных состязаниях, мы можем сказать, что спортсмен занял то или иное место, и при этом один будет выше другого. Говоря об оценках, мы можем ставить как оценки два, три, четыре, пять, либо можем обозначать их словами: два — это "неудовлетворительно", три — "удовлетворительно", четыре — "хорошо", пять — "отлично". Примерами порядковых шкал могут являться шкала землетрясений в баллах, стадий заболеваний и прочее. В этих шкалах также могут проводиться ранжирование, классификация, экспертные оценки. Порядковая и номинальная шкалы, как было сказано выше, относятся к неколичественным шкалам. А теперь рассмотрим группу количественных шкал. Первой количественной шкалой является шкала интервалов. Для нее нет естественного начала отчета, ни единицы измерений. Примером величин, измеренных в такой шкале, может являться температура, которая может измеряться в градусах Цельсия или, например, по Фаренгейту. При измерении температуры ноль градусов по шкале Цельсия соответствует 32 градусам по Фаренгейту. При изменении на один градус Цельсия температура по Фаренгейту изменяется на девять пятых, то есть на 1.8 градуса. Допустимыми преобразованиями интервальных шкал являются линейные возрастающие. И как раз этим примером является перевод шкалы Фаренгейта в шкалу Цельсия. Здесь мы видим линейное преобразование с коэффициентом пять девятых и со свободным членом. Данный сомножитель переводит нам единицы измерения из одной системы в другую, а вот это слагаемое говорит нам об отсутствии фиксированного начала отсчета. Следующая количественная шкала — это шкала разностей, которая является частным случаем интервальной шкалы. В шкале разностей есть естественная единица измерения, но нет фиксированного нуля, например, год, соответствующий обороту Земли вокруг Солнца, или сутки, соответствующие обороту Земли вокруг своей оси. Но отсчитывать годы, сутки мы можем с любого момента, например, с 1 января, когда мы отмечаем Новый год, с даты рождения или даты наступления другого какого-то события. В данной шкале мы можем говорить, какое значение больше или меньше и на сколько, но не можем говорить, во сколько раз. Например, если брат старше сестры на шесть лет, то когда сестре будет три года, а брату девять лет, отличия в их возрасте будет в три раза, а спустя три года, когда им будет шесть и двенадцать лет соответственно, это отличие уже будет только в два раза. Изменения непропорциональны, так как разные начала отсчета. То есть про данные величины нельзя говорить, что брат старше сестры во столько-то раз, можно говорить только, на сколько он ее старше. Эта разность будет оставаться неизменной. Следующая количественная шкала — шкала отношений. В шкале отношений есть начало отсчета, но нет фиксированной единицы измерения, например, вес. Понятно, что объект нулевого объема имеет нулевой вес, отсутствие веса соответствует нулю, а сам вес можно измерять в килограммах, граммах и других единицах. Для длины у нас также есть понятие нулевой длины, но саму длину можно измерять в метрах, сантиметрах и так далее. Наверняка вы все помните мультик про удава, который в попугаях был гораздо длиннее. Цена — еще один пример величины измерения в шкале отношений. Понятно, что значит, что объект имеет нулевую цену. Сама же цена может измеряться в рублях, долларах, евро и других единицах. В данной шкале присутствуют все атрибуты количественной шкалы: начало отсчета, порядковость, интервальность. Следовательно, с наблюдениями можно выполнять основные преобразования: складывать, вычитать, умножать, делить и так далее. Допустимые преобразования самой шкалы: линейные возрастающие без свободного члена, чтобы ноль оставался неподвижным. Например, пересчет цен в разной валюте. И последний тип количественной шкалы, самый полный с точки зрения количественной информации — это абсолютная шкала. Здесь есть и фиксированный ноль, и единица измерения. Например, количество выпущенной продукции, количество участников мероприятия и так далее. Для измерений целочисленных величин можно использовать множество натуральных чисел, для дробных — вещественные числа. Для абсолютной шкалы характерна абсолютность единицы измерения. Например, если мероприятие посетили N человек или в автосалоне было продано N автомобилей, ни в каких других единицах эти величины уже не выразить. Допустимые преобразования шкалы в этом случае только тождественные. Зато с наблюдением, измеренным в этой шкале, допустимы и корректны многие операции, которые недопустимы в других шкалах, например, помимо операций сложения, вычитания, умножения, деления, также допустимы возведение в степень, взятие логарифма и прочее. Говоря о шкалах, очень важно отметить, что выводы, сделанные на основе данных, измеренных в шкале определенного типа, не должны изменяться при допустимом преобразовании шкалы или, как еще говорят, выводы должны быть инвариантны по отношению к допустимым преобразованиям шкалы. Как видите, шкалы отличаются по своей информативности или по своей силе. Чем сильнее шкала, тем больше информации об анализируем объекте на основании нее можно получить. Всегда желательно использовать максимально информативную шкалу, соответствующую вашим данным. Если брать более слабую шкалу, это может привести к потере некоторой информации, но не приведет к ее искажению. Если же использовать более сильную шкалу, это может привести к некорректным выводам. Данные, выраженные в более сильной шкале, легко могут быть переведены в более слабую шкалу. Переход же от более слабой шкалы к более сильной невозможен. Например, имея результаты забега и время, за которое спортсмены пробежали дистанцию, можно легко сказать, кто прибежал первым, а кто вторым. Имея же только итоговую таблицу с местами, зная, кто занял первое место, кто второе и так далее, сказать, кто за сколько пробежал дистанцию, невозможно. Тем самым мы легко можем перевести количественную шкалу в порядковую, а обратно от порядковой к количественной перейти без привлечения дополнительной информации невозможно. Возвращаясь к примеру про оценки в пятибалльной и десятибалльной рейтинговой шкале, можно сказать, что первая шкала порядковая, а вторая — номинальная, так как содержит номинальные величины. В данной таблице мы видим основную информацию о метрических шкалах, в частности то, что у интервальной шкалы отсутствуют начало отсчета и фиксированная единица измерения, в шкале разностей у нас имеется фиксированная единица измерения, но нет нуля, в шкале отношений есть фиксированный ноль, но нет фиксированной единицы измерения, а в абсолютной шкале у нас присутствует и то, и то. Следующая таблица показывает допустимые операции, которые можно проводить над величинами, измеренными в соответствующих шкалах. Так, величины, измеренные в номинальной шкале, допускают только сравнение. Мы можем сказать, какие объекты совпадают по соответствующему значению, а какие не совпадают. При этом мы даже не имеем права сравнивать их на больше-меньше. Для порядковой шкалы типична упорядоченность объектов, то есть, во-первых, мы можем отвечать на вопрос, равны или не равны объекты, и можем сравнивать их на больше-меньше. Для интервальной шкалы или шкалы разностей также допустимым становится операция сложения, то есть теперь мы можем сравнивать объекты, совпадают они или нет, можем сравнивать их на больше или меньше, а также можем складывать или вычитать. В абсолютной же шкале допустимы все приведенные операции, включая сложение, вычитание, умножение и деление. Теперь вы знаете основные типы шкал, и при выборе методов статистического анализа обязательно нужно обращать внимание, в каких шкалах были измерены ваши величины, и к какому типу данных они относятся.