0:00
[МУЗЫКА]
[МУЗЫКА] Здравствуйте!
Мы очень рады, что вы заинтересовались нашей специализацией, и в этой
лекции я вам коротко расскажу о том, что вас ждет, если вы решите с нами поучиться.
Специализация посвящена статистическому анализу данных и состоит из четырех
курсов, каждый из которых, с одной стороны, завершенная вещь,
то есть он рассматривает определенный класс задач и завершается проектом,
где вы сможете своими руками что-то поделать на реальных данных
и закрепить полученные в курсе знания.
С другой стороны, все-таки они расположены немножко по уровню сложности.
Если первый курс самый базовый, то второй,
третий и четвертый как бы немножечко посложнее.
Давайте я коротко расскажу вам про каждый из курсов, что будет, собственно, внутри.
Первый курс будет полезен тем из вас, чей опыт работы с данными может быть не очень
большой или если вы неуверенно чувствуете себя в основах и хотели бы их закрепить.
Здесь мы говорим о теории вероятности (об основах),
о случайных величинах и признаках, о характеристиках распределений,
дальше мы говорим об основах математической статистики,
говорим о мерах центра и вариативности, ну, и конечно же говорим о том,
как визуализировать распределения и немножечко о графическом анализе данных.
В завершение мы поговорим еще и о выборках, о том,
как грамотно строить выборки, о том, как гарантировать корректную процедуру отбора,
какие возможности и ограничения следуют из разных логик отбора, и, конечно же, о том,
как работать с неопределенными,
нетипичными или отсутствующими данными — так тоже бывает.
Если первый курс описательный, то второй — здесь мы уже переходим к статистике.
Здесь мы начинаем с проверки статистических гипотез,
что такое гипотезы, как их проверять, какие бывают критерии, какая логика,
какие принципы, и, затем,
вот эту вот теорию начинаем разворачивать на рассмотрение конкретных инструментов.
Как исследовать взаимосвязи линейные, нелинейные и в завершение посмотрим на то,
как можно не только исследовать взаимосвязи,
но и прогнозировать значение одного признака, зная значения другие.
То есть мы поговорим о корреляциях, о таблицах сопряженности, линейных
регрессиях, и если вам интересно узнать, например, связано ли счастье и богатство,
или связана ли активность пользователя с днем недели или с временем года, или вы
хотите узнать, способствует ли наличие страницы в социальных сетях популярности
корпоративного сайта, то вот за такого рода вопросами вам во второй курс.
Приходите, пожалуйста.
Третий курс касается сравнения и формирования групп.
И здесь у нас есть тоже две содержательных части.
В первой части мы говорим о сравнении групп или категорий.
Мы говорим о критериях параметрических и непараметрических, о возможностях и
ограничениях, и если вас интересует вопросы, по-разному ли ищут работу
в городе или на селе, или различаются ли регионы или целевые группы по доходу,
возрасту или социально-демографическому составу, то вам сюда.
Здесь мы подробнее поговорим о классах задач и о способах их решения.
Вторая половина третьего курса посвящена уже формированию групп.
Если в первом случае мы знаем, что группы существуют, и сравниваем
их характеристики, то во втором случае мы говорим о том, что возможно есть какая-то
структура в наших данных, в которой мы не уверены, но мы подозреваем, что она есть.
И мы пытаемся выявить эти группы, допустим, людей, или университетов,
или компаний, или еще чего-то, или рубрик по сходным характеристикам,
которыми эти объекты обладают.
И мы поговорим об основных алгоритмах кластеризации,
посмотрим как строить кластеры, как их описывать, и как понимать,
что же за группы, собственно, получились.
Ну и четвтертый курс.
Он такой, условно самый сложный.
И здесь мы поговорим об анализе трендов и о применении классификаторов.
Тренды — это про что?
Тренды — это, в общем-то, слово популярное, и здесь мы рассматриваем,
допустим, такие вопросы, как растут ли наши продажи, или стабилен ли приток
клиентов, тенденция это или случайность, есть ли какие-то сезонные закономерности в
том, как развивается показатель, который нас интересует, как выявить эти тренды,
как описать, и как понять, что за ними стоит.
Также в этом курсе мы поговорим о факторном анализе,
который позволяет узнать, есть ли какие-нибудь скрытые переменные
за проявлением каких-то мелких, видимых характеристик.
Понять, как найти эти переменные, понять, как описать что за ними стоит,
и как интерпретировать то, что собственно получается.
Ну и в завершение поговорим о классификаторах.
Классификаторы позволяют нам отнести объект к той или иной категории,
с заданной вероятностью,
исходя из нашего знания о некоторых характеристиках этого объекта.
Ну вот например, отдаст заемщик кредит или нет, закончит студент курс или нет,
сработает лекарство или нет, и вот такие вот прочие задачи.
Мы поговорим об основных методах, о простых классификаторах.
К примеру, мы рассмотрим деревья решений, как они устроены,
как они помогают в принятии решений, мы поговорим о простых бинарных
классификаторах, о логистической регрессии, и на данных построим модель,
которая позволит нам классифицировать и прогнозировать.
Также, что важно, в конце каждого курса у нас будут не только теоретические,
но и практические лекции, и вам будут предложены видео,
в которых будет показано, как на практике решать то,
что мы рассматриваем в двух продуктах: при помощи SPSS и при помощи R.
Насколько мне известно, во многих университетах (по крайней мере,
социологам) анализ данных преподают с применением SPSS.
В МГУ это, по крайней мере, так.
Если в вашей организации есть этот пакет, и если вы хотите им овладеть,
то вы сможете пойти по SPSS-ному треку и попробовать посмотреть эти
практические видео.
SPSS — это, к сожалению, платный продукт (ну, как к сожалению — реальность такова),
но есть бесплатная версия 14-дневная, которую вы можете,
зарегистрировавшись на сайте, скачать (в материалах курса есть инструкция,
как это делать) и попрактиковаться.
Но поскольку срок жизни бесплатной версии достаточно короткий, лучше устанавливать
ее поближе к тому моменту, когда вы решите делать практические задания.
Ну и R — второй продукт, второй инструмент.
Это, наверное, самый, или по крайней мере,
один из самых распространенных способов анализа данных сейчас, и он бесплатный.
И при помощи R вы можете анализировать данные в любом месте практически,
без дополнительных финансовых затрат.
Правда, он потребует от вас некоторой дополнительной подготовки,
материалы для которой, мы, разумеется, предоставим.
Для R есть большое количество сред, R Studio, к примеру,
ставится или еще что-то.
Мы будем показывать практику на Jupyter Notebooks,
и также вы сможете практиковаться прямо не выходя из курса, прямо в среде курса
решать какие-то задачки, которые мы будем разбирать на лекциях.
Итак, вот такая наша специализация, добро пожаловать.
Еще раз спасибо большое за интерес к нашей специализации, и мы уже с нетерпением ждем
возможности поработать с вами и пообщаться с вами на форуме.