В этом видео мы поговорим о проверке гипотез. Прежде, чем составлять гипотезу, нужно пойти к экспертам и к заказчику, и провести с ними интервью. По итогам этого интервью нужно составить перечень фичей, перечень признаков. То есть на этапе интервью вы должны спросить у экспертов: что является признаками того или иного процесса, и какие из этих признаков являются более важными, чем другими? Например, если вы хотите предсказывать исход судебных дел, то вы идете к судьям и задаете им вопрос: "По вашему мнению, какие признаки судебного дела влияют на его исход?" А потом вы спрашиваете: "Какие признаки наиболее сильно влияют на исход дела, а какие наиболее слабо?" Опросив двадцать экспертов, вы можете получить хороший перечень фичей, которые будут у вас отранжированы по степени важности. Дальше вы смотрите на свои данные — на те данные, которые есть в компании. И из тех более доступных данных, которые легче всего проанализировать, вы тоже извлекаете фичи, если это, конечно, возможно. После этого у вас получается большой перечень фичей, который вы можете использовать для своих моделей. Вместе с Data Scientist вы определяете, какие модели лучше всего будут работать с этими фичами. И у вас получается два списка — список фичей по степени их важности и список моделей по степени их сложности. После чего у вас рождается некоторый перечень моделей с фичами, которые вы можете проверять. Собственно, результатом проверки той или иной модели является некоторая метрика, которая показывает качество этой модели. Если модель работает не сильно качественно, то тогда у вас есть два пути: либо пойти проверить другую модель, которая может оказаться более эффективной, как вам кажется; либо добавить фичей в эту модель и повысить тем самым качество ее работы. Кроме того, очень важно отмечать те модели и те фичи, которые не работают. Это знание очень важно сохранить для того, чтобы в будущем не возвращаться к этому. Это очень может помочь в вашей работе. Рассмотрим случай прогноза болезни пациента. Допустим, у вас стоит задача спрогнозировать, насколько, с какой вероятностью тот или иной пациент может заболеть диабетом. Мы уже как-то обсуждали этот кейс. Вы идете к самым лучшим двадцати врачам, которые специализируются в этой теме, и спрашиваете их: что, какие признаки из известных им наиболее сильно влияют на то, что человек будет болеть диабетом, и какие вообще могут признаки влиять на это. Получив такой перечень, вы можете составить модель. Например, вы захотите использовать линейную регрессию. Использовав линейную регрессию, вы получаете некоторый результат. И этот результат может оказаться не очень хорошим. Допустим, вы взяли всего три признака. Это: являются ли, есть ли родственники, которые болели сахарным диабетом, возраст пациента и его пол. Но этого оказалось недостаточно, и вы решили взять результаты последних анализов на сахар, или вы решили использовать какие-то другие фичи, которые повышают качество вашей модели. Таким образом, на выходе вы получаете модель, которая работает лучше. Если линейная регрессия не справилась с этой задачей, вы можете посмотреть какие-то другие подходы для того, чтобы определять качество, повысить качество работы этой модели. Очень важно понимать, что есть модели, которые проще составить, — и это будет дешевле в разработке. И есть фичи, которые проще достать, которые тоже стоят дешевле для вас. А есть фичи, которые трудно извлекаются, и иногда их нужно находить вне рамок компании, привлекая какие-то данные, например, из социальных сетей, или покупая какие-то данные на рынке, которые доступны в продаже, то есть обогащая эту модель какими-то внешними данными. То есть всегда есть вопрос стоимости разработки этой модели. Кроме того, когда вы тестируете гипотезу, нужно правильно организовать процесс работы вашей команды. Есть наверняка какой-то выделенный бюджет — как правило, это полтора — два с половиной миллиона рублей на сегодняшний момент, за которые вы готовы потратить на проверку гипотезы. Эти деньги позволят вам дальше сэкономить очень много времени, сил и тех же самых денег для того, чтобы не совершать ошибок при масштабировании и при развитии вашей модели. В рамках проверки гипотезы вы можете работать по скраму, идя итерационно. То есть вы взяли некоторое количество фичей, проверили вы их в какой-то конкретной модели, получили результат. Этот результат захотели улучшить, добавили фичей или изменили модель. Подошли и сделали еще один проход. И так далее, и так далее. То есть, идя спринтами по скраму, вы получаете каждый раз все более и более хороший результат. Итогом проверки концепции, итогом проверки гипотезы является проверенная модель, которая должна устраивать вас и бизнес-заказчика.