0:00
Данные — это нефть XXI века.
У интернет-магазинов есть огромное количество записей о совершенных
пользователями покупках и о предшествовавших им действиях.
У лечебных учреждений есть много данных о диагнозах,
которые поставили врачи, и об историях болезней.
У «Яндекса» есть петабайты данных о том, как люди ищут что-то в Интернете.
Все эти данные могут приносить нам какую-то пользу, но как же ее извлечь?
Наука про извлечение закономерностей из данных так и называется — наука о данных,
или data science.
Она пытается понять,
как можно из данных самой разной природы получить ответы на некоторые вопросы.
Разделы науки о данных, которые освещают разные методы получения таких ответов,
называются машинное обучение и анализ данных.
>> Одна из самых древних задач, в которых применимы методы анализа данных,
— это задача прогнозирования.
Прогнозировать можно что угодно: продажи товаров в магазинах,
рейтинги телесериалов, пробки, погоду, землетрясения.
В Древнем Вавилоне для построения прогнозов использовали информацию
о расположении червей в гнилой печени овцы.
В III веке до нашей эры Дельфийский оракул строил свои предсказания,
вдыхая галлюциногенные пары этилена.
Более современный подход заключается в использовании исторических данных.
Например, для магазинов мы, как правило,
знаем историю продаж всех товаров за все время существования магазина.
Наблюдения за погодой ведутся уже сотни лет.
Методы машинного обучения и анализа данных могут проанализировать такую историческую
информацию, найти в ней какие-то закономерности и на основании этих
закономерностей научиться предсказывать будущее.
Простейшие из таких методов в XX веке появились даже в пакетах офисных программ.
С тех пор модели и средства прогнозирования продолжали развиваться.
Современные методы позволяют находить существенно более сложные
закономерности и строить намного более точные прогнозы.
>> А вот еще одна задача.
В популярных социальных сетях,
например, в «Твиттере» в день появляются сотни миллионов записей.
Люди пишут обо всем: о чем они думают, что происходит в их жизни, что их беспокоит.
Если у вашей компании есть клиенты, то наверняка вам интересно узнать,
что думают о вас эти клиенты, особенно если это мнение негативное.
Но вряд ли вы сможете нанять человека,
который сможет читать хотя бы миллион записей в день.
Даже если он сможет фильтровать записи, смотреть только те,
где упоминается ваша компания, их все равно будет слишком много.
А вот машинное обучение позволяет построить модель,
которая будет отделять негативные отзывы о вашей компании от всего остального.
Этой модели не нужно будет платить зарплату, и при этом вы сможете быстро
реагировать на любые негативные записи, которые пишут о вас в Интернете.
>> Имея большое количество данных, можно попытаться понять их скрытую структуру.
Например, зная, какие товары нравятся пользователям,
можно попытаться понять их интересы и на этой основе предложить им что-то еще.
Приблизительно так работают рекомендательные системы.
Кстати, впервые они появились на сайтах интернет-магазинов около 20-ти лет назад,
а сейчас распространились даже в такие далекие от электронной коммерции области,
как банковское дело или сотовая связь.
Имея персональные рекомендации, можно не только порадовать пользователей,
но и принести пользу бизнесу.
Например, существенная часть покупок онлайн-магазина Amazon обеспечивается за
счет рекомендательных систем, работающих на основе методов машинного обучения.
>> Еще методы анализа данных могут позволить выявлять аномальные состояния
системы.
Например, наблюдая за показаниями многочисленных датчиков в самолете,
можно заметить, что одна из деталей нуждается в ремонте.
В этом случае мы можем избежать аварии или снизить расход топлива.
Или, например, наблюдая за транзакциями по банковским картам,
можно заметить нетипичную транзакцию и приостановить действие карты.
Банк сможет позвонить клиенту и уточнить, все ли у него в порядке.
>> Данных с каждым годом становится все больше,
поэтому растет спрос на специалистов по их анализу.
Так, по данным профессиональной социальной сети LinkedIn,
умение анализировать данные — навык, на который работодатели чаще всего обращали
внимание при поиске сотрудников в прошлом году.
Специалист по анализу данных должен уметь сформулировать задачу в терминах машинного
обучения, найти подходящие для ее решения данные, а также построить прогнозную
модель, имеющую хорошее качество и способную приносить пользу бизнесу.
Анализ данных — наука, в которой работают хорошо обоснованные теоретические методы,
а также эвристики,
но лишь их грамотное сочетание позволяет успешно решать практические задачи.
[МУЗЫКА]