Informações sobre o curso
4.8
223 classificações
44 avaliações

100% online

Comece imediatamente e aprenda em seu próprio cronograma.

Prazos flexíveis

Redefinir os prazos de acordo com sua programação.

Nível avançado

Aprox. 28 horas para completar

Sugerido: 4 hours/week...

Russo

Legendas: Russo

Habilidades que você terá

Data ScienceMachine LearningVowpal WabbitData Visualization (DataViz)

100% online

Comece imediatamente e aprenda em seu próprio cronograma.

Prazos flexíveis

Redefinir os prazos de acordo com sua programação.

Nível avançado

Aprox. 28 horas para completar

Sugerido: 4 hours/week...

Russo

Legendas: Russo

Programa - O que você aprenderá com este curso

Semana
1
24 minutos para concluir

Неделя 1

...
2 leituras, 1 teste
2 leituras
Обзор проектов10min
Как это работает?10min
1 exercício prático
Выбор проекта4min
11 horas para concluir

Неделя 1: Lesson Choices

Choice 1: В этом проекте мы будем решать задачу идентификации пользователя по его поведению в сети Интернет. Это сложная и интересная задача на стыке анализа данных и поведенческой психологии. В качестве примера, компания Яндекс решает задачу идентификации взломщика почтового ящика по его поведению. В двух словах, взломщик будет себя вести не так, как владелец ящика: он может не удалять сообщения сразу по прочтении, как это делал хозяин, он будет по-другому ставить флажки сообщениям и даже по-своему двигать мышкой. Тогда такого злоумышленника можно идентифицировать и "выкинуть" из почтового ящика, предложив хозяину войти по SMS-коду. Этот пилотный проект описан в статье на Хабрахабре. Похожие вещи делаются, например, в Google Analytics и описываются в научных статьях, найти можно многое по фразам "Traversal Pattern Mining" и "Sequential Pattern Mining". | Choice 2: Выстраивание взаимоотношений с клиентами или customer relationship managmenet (CRM) является важным звеном в функционировании любого бизнеса. От того, насколько хорошо простроена работа с аудиторией зачастую зависит успех всей компании. В проекте вы столкнететь с одной из наиболее актуальных задач из области CRM: прогнозирование оттока пользователей или churn prediction. Суть задачи заключается в заблаговременном нахождении сегмента пользователей, склонных через некоторый промежуток времени отказаться от использования некоторого продукта или услуги. Точное и своевременное нахождение таких пользователей позволяет эффективно бороться с их оттоком, например, выявлять причины оттока и принимать меры по удержанию клиентов. Эта задача актуальна для большинства организаций, оказывающих услуги в сегменте B2C и вдвойне актуальна в областях, где распространение услуги близко к отметке 100%. Хороший пример такой области – рынок мобильной связи, где насыщение уже фактически произошло, и как следствие постепенно снижается прирост клиентской базы. В такой ситуации задача удержания клиентов и выстраивания с ними взаимоотношений выходит на первый план. В процессе работы над проектом вы научитесь математически ставить задачу прогнозирования оттока, строить и оптимизировать прогнозные модели, оценивать их качество и экономический потенциал. И, конечно, полученные знания и опыт вы сможете применять в дальнейшем для решения аналогичной задачи в сфере вашей работы . | Choice 3: Задача этого проекта — научиться предсказывать количество поездок в ближайшие часы в каждом районе Нью-Йорка. Для того, чтобы её решить, сырые данные необходимо агрегировать по часам и районам. Агрегированные данные будут представлять собой почасовые временные ряды с количествами поездок из каждого района. Похожие задачи возникают на практике, если вам необходимо спрогнозировать продажи большого количества товаров в большом количестве магазинов, объём снятия денег в сети банкоматов, посещаемость разных страниц сайта и т.д. | Choice 4: В этом проекте вам предстоит решать задачи анализа тональности текстов в нескольких разных постановках. Начнется все с несложных экспериментов на отзывах на фильмы, в ходе которых вы построите простую модель и немного доработаете ее. Затем вам предстоит поучаствовать в соревновании по сентимент-анализу отзывов на товары и сделать интерактивную демонстрацию для своего алгоритма, которую можно будет показать даже тем, кто никогда не видел Python и машинное обучение. После этого вы поупражняетесь в парсинге веб-страниц и столкнетесь с жестокой реальностью - к вам придет заказчик, который захочет от вас сентимент-анализ отзывов на определенную категорию товаров, но вот выборку для обучения придется собирать самим. Как и угадывать, что же заказчик называет негативными отзывами, а что позитивными. В конце проекта вам потребуется сделать демонстрацию и для этого алгоритма, чтобы заказчик мог с ним поиграться, а не только лишь ориентироваться на качество из контеста....
5 vídeos (total de (Total 58 mín.) min), 3 leituras, 4 testes
5 videos
Чтение данных из файлов11min
Запись файлов, изменение файлов8min
Pandas. Data Frame11min
Pandas. Индексация и селекция13min
3 leituras
Общее описание проекта "Идентификация интернет-пользователей"10min
Прогнозирование оттока пользователей телекоммуникационной компании10min
Жёлтое такси в Нью-Йорке10min
Semana
2
10 horas para concluir

Неделя 2: Lesson Choices

Choice 1: На второй неделе мы продолжим подготавливать данные для дальнейшего анализа и построения прогнозных моделей. Конкретно, раньше мы определили что сессия – это последовательность из 10 посещенных пользователем сайтов, теперь сделаем длину сессии параметром, и потом при обучении прогнозных моделей выберем лучшую длину сессии. Также мы познакомимся с предобработанными данными и статистически проверим первые гипотезы, связанные с нашими наблюдениями. | Choice 2: На прошлой неделе мы познакомились с задачей и данными. Пора задуматься о том, с какими особенностями и трудностями нам предстоит работать в процессе построения модели прогнозирования оттока. Как может сказаться на качестве модели то, что данные не сбалансированы по классам? Какие метрики качества подходят в таких случаях? Каким будет KPI? Как организовать процесс оценки решения с помощью кросс-валидации, какую схему выбрать? Как следует обрабатывать данные разного типа (например, категориальные) для того, чтобы использовать их при построении модели? На все эти вопросы нам предстоит ответить на этой неделе. | Choice 3: На этой неделе вам предстоит освоить работу с геоданными, научиться рисовать объекты на статистических и динамических картах, а также понять, для каких прямоугольных районов прогнозировать спрос на такси на самом деле нужно. | Choice 4: На этой неделе вам предстоит поэкспериментировать с признаками в задаче анализа тональности отзывов....
3 vídeos (total de (Total 25 mín.) min), 4 testes
3 videos
Биномиальный критерий для доли7min
Доверительные интервалы на основе бутстрепа8min
Semana
3
8 horas para concluir

Неделя 3: Lesson Choices

Choice 1: Теперь мы займемся визуальным анализом данных и построением признаков. Сначала мы вместе построим и проанализируем несколько признаков, связанных со временем посещения сайта, потом Вы сможете сами придумать и описать различные признаки. На этой неделе задание имеет вид Peer-Review, так что творчество здесь активно приветствуется. Если задействуйте IPython-виджеты, библиотеку Plotly, анимации и прочий интерактив, всем от этого будет только лучше. | Choice 2: На этой неделе вам предстоит построить модель временного ряда для одной из зон; вы можете выбрать любую. Если вы забыли, как в питоне можно прогнозировать временные ряды, пересмотрите первую неделю пятого курса. | Choice 3: Настало время перейти к построению моделей! Давайте начнем с построения так называемых бейзлайнов - построим несколько моделей, которые в дальнейшем будем использовать в качестве первого приближения для будущей модели. Часто для решения подобных задач используются линейные модели, а также ансамбли, например, случайный лес или градиентный бустинг | Choice 4: Итак, вы уже немного познакомились с задачей. Теперь попробуйте поучаствовать в соревновании по анализу тональности текстов и побить бейзлайн (или вовсе выйти в топ участников)....
2 vídeos (total de (Total 18 mín.) min), 4 testes
2 videos
Визуализация данных в sklearn12min
Semana
4
9 horas para concluir

Неделя 4: Lesson Choices

Choice 1: Теперь мы наконец подойдем к обучению моделей классификации, сравним на кросс-валидации несколько алгоритмов, разберемся, какие параметры длины сессии (session_length и window_size) лучше использовать. Также для выбранного алгоритма построим кривые валидации (как качество классификации зависит от одного из гиперпараметров алгоритма) и кривые обучения (как качество классификации зависит от объема выборки). | Choice 2: Итак, мы научились обрабатывать данные, выбрали схему кросс-валидации и определились с метриками качества. Пора переходить к оптимизации модели. На этой неделе вам предстоит принять участие в соревновании на платформе kaggle inclass! Цель такого соревнования - преодолеть предложенное baseline решение, а, главное, обсудить и сравнить предложенные решения на форуме. Какие признаки оказали наибольший вклад в модель? Как лучше обрабатывать категориальные признаки? Нужно ли делать отбор признаков, А балансировать выборку? Экспериментируйте с данными и обсуждайте ваши решения на форуме! | Choice 3: На прошлой неделе вы научились прогнозировать временной ряд со сложной сезонностью с помощью модели ARIMA на примере одной из географических зон. На этой неделе вы построите такие прогнозы для каждой зоны. Чтобы не подбирать вручную огромное количество моделей, вам понадобится сделать кластеризацию рядов. | Choice 4: Теперь, когда у вас уже получается делать неплохие решения задачи сентимент-анализа, пора научиться собирать для вашего алгоритма интерактивную демонстрацию в виде простенькой веб-странички, чтобы на него могли посмотреть в действии не только те, кто может запустить ipython notebook....
4 testes
4.8
44 avaliaçõesChevron Right

80%

comecei uma nova carreira após concluir estes cursos

64%

consegui um benefício significativo de carreira com este curso

Melhores avaliações

por TBJul 16th 2018

Excellent project which gives an opportunity to practice the skills you earned during the previous courses. Nice job, guys!

por VTJun 29th 2017

Проект по сентимент-анализу немного примитивный, но в общем-то все было достаточно неплохо. Может, сделаю и другие :)

Sobre Instituto de Física e Tecnologia de Moscou

Московский физико-технический институт (неофициально известный как МФТИ или Физтех) является одним из самых престижных в мире учебных и научно-исследовательских институтов. Он готовит высококвалифицированных специалистов в области теоретической и прикладной физики, прикладной математики, информатики, биотехнологии и смежных дисциплин. Физтех был основан в 1951 году Нобелевской премии лауреатами Петром Капицей, Николаем Семеновым, Львом Ландау и Сергеем Христиановичем. Основой образования в МФТИ является уникальная «система Физтеха»: кропотливое воспитание и отбор самых талантливых абитуриентов, фундаментальное образование высшего класса и раннее вовлечение студентов в реальную научно-исследовательскую работу. Среди выпускников МФТИ есть Нобелевские лауреаты, основатели всемирно известных компаний, известные космонавты, изобретатели, инженеры....

Sobre Yandex

Yandex is a technology company that builds intelligent products and services powered by machine learning. Our goal is to help consumers and businesses better navigate the online and offline world....

Sobre o Programa de cursos integrados Aprendizado de máquina e análise de dados

Мы покажем, как проходит полный цикл анализа, от сбора данных до выбора оптимального решения и оценки его качества. Вы научитесь пользоваться современными аналитическими инструментами и адаптировать их под особенности конкретных задач. В рамках специализации вы освоите основные темы, необходимые в работе с большим массивом данных, в т.ч. современные методы классификации и регрессии, поиск структуры в данных, проведение экспериментов, построение выводов, базовая фундаментальная математика, основы программирования на Python. Мы разберём, как построить рекомендательную систему, оценить эмоциональную окраску текста, спрогнозировать спрос на товар, оценить вероятность клика по рекламе и т.д. В финале вам потребуется выполнить проект собственной системы, решающей любую актуальную для бизнеса задачу. Результатом будет наглядная работающая модель, которую вы сможете использовать в вашей повседневной работе или продемонстрировать на собеседовании. Все, прошедшие специализацию, могут принять участие в Программе трудоустройства. Если вы заинтересованы в новых проектах, новых перспективах и возможностях - пройдите обучение по Специализации и подайте заявку....
Aprendizado de máquina e análise de dados

Perguntas Frequentes – FAQ

  • Ao se inscrever para um Certificado, você terá acesso a todos os vídeos, testes e tarefas de programação (se aplicável). Tarefas avaliadas pelos colegas apenas podem ser enviadas e avaliadas após o início da sessão. Caso escolha explorar o curso sem adquiri-lo, talvez você não consiga acessar certas tarefas.

  • Quando você se inscreve no curso, tem acesso a todos os cursos na Especialização e pode obter um certificado quando concluir o trabalho. Seu Certificado eletrônico será adicionado à sua página de Participações e você poderá imprimi-lo ou adicioná-lo ao seu perfil no LinkedIn. Se quiser apenas ler e assistir o conteúdo do curso, você poderá frequentá-lo como ouvinte sem custo.

  • Курс "Анализ данных: финальный проект" перезапускается раз в два месяца, в отличии от предыдущих курсов специализации, которые перезапускались раз в две недели.

Mais dúvidas? Visite o Central de Ajuda ao Aprendiz.