[БЕЗ ЗВУКА] Итак, наша вторая видеолекция будет посвящена примерам прикладных задач машинного обучения. Напомню, что в машинном обучении исходные данные у нас, как правило, представляются в виде матрицы «объекты – признаки». Строки матрицы соответствуют объектам, столбцы — признакам, и есть еще один столбец — это ответы, правильные ответы на объектах обучающей выборки, и цель — научиться восстанавливать зависимость ответов от объектов, ну и далее потом эту зависимость использовать для того, чтобы делать прогнозы, решать задачи автоматизации принятия решений. Давайте поговорим о том, в каких предметных областях возникают такие задачи. Наверное, одно из самых первых приложений машинного обучения и очень важных приложений — это задачи медицинской диагностики. Здесь объектами являются пациенты, точнее, состояние пациентов в определенный момент времени, а классами являются либо диагнозы, тогда говорят о задаче дифференциальной диагностики, либо это предсказание исхода заболевания, либо это назначение определенного способа лечения. Ну можно себе представить ситуацию, например, для конкретности, что это у нас задача: скажем, в токсикологическое отделение поступает больной, и надо быстро принять решение, что с ним делать, а высококвалифицированные специалисты далеко не всегда под рукой. И вот эта вот идея о том, что можно автоматизировать принятие решений и направлять пациента на дальнейшее обследование по тому, что мы у него наблюдаем. И здесь для нас важны примеры признаков. Бинарные признаки: пол, наличие головное боли, каких-то симптомов — слабости, тошноты и так далее. Порядковые признаки здесь тоже в качестве примера у нас присутствуют, например, врачи измеряют желтушность кожи по определенным градациям. Количественные признаки, их, конечно, много. Это как минимум возраст, например, или вес больного. Дальше — любые измерения, которые ему можно сделать: в простейшем случае пульс, артериальное давление и так далее, анализы крови, — примеры таких измерений, которые дают сразу много количественных признаков. И, конечно же, особенностью этой задачи является то, что здесь у нас присутствуют признаки разнотипные, и признаковое описания — как правило, это десятки, может быть, даже сотни самых разных признаков. Обычно в этих задачах не так уж много объектов, то есть пациентов, к которым были применены все эти методы измерения, и эта информация была аккуратно собрана в базах данных. Вот такие выборки обычно содержат не так уж много случаев — это десятки, в лучшем случае сотни, так что мы имеем случай, когда выборка короткая, зато признаков много. И особенность медицинских задач — это, конечно же, огромное количество пропусков в данных, то есть в признаковом описании пациента всегда присутствуют не все измерения, это было бы глупо даже делать все возможные измерения каждому пациенту, да и дорого, да и не нужно. И еще одна особенность медицинских задач в том, что алгоритм классификации должен быть интерпретируемым: он не только должен уметь классифицировать объекты и говорить, например, что за заболевание у пациента, но и объяснять свое решение, и не все, далеко не все модели машинного обучения обладают этим свойством интерпретируемости. Ну и еще одно свойство в том, что алгоритм должен выдавать не только жестко классификацию «да – нет», но и давать оценку вероятности класса. Очень похожий пример, похожий тем, что объектами здесь тоже выступают люди, но цель совсем другая, и поэтому признаки тоже совсем другие. В данном случае речь идет о задаче кредитного скоринга, когда нам нужно принять решение, банку нужно принять решение о том, выдавать данному физическому лицу кредит или нет. И здесь, конечно, признаки будут характеризовать социально-демографические и экономические характеристики данного физического лица, ну, например, насколько долго он живет на одном месте, насколько долго он работает на одной работе, насколько большую зарплату он получает, хорошей ли профессией он обладает, какая у него семья, каков доход семьи, что у него есть, квартира, дача, машина и так далее, — вот все эти характеристики очень важны. Особенность данной задачи в том, что здесь мы также должны кроме бинарного решения «плохой или хороший», — кстати, эти термины, bad и good, они используются кредитными аналитиками во всем мире, это уже сложившаяся такая, сложившаяся терминология, — и нам нужно научиться оценивать, что очень важно, вероятность того, что будет дефолт: вероятность того, что данный заемщик окажется «плохим». Следующий пример — задача, она тоже задача экономическая, это задача предсказания оттока клиентов. Такие задачи решаются крупными компаниями, в частности телекоммуникационными компаниями, где рынок уже давно поделен между крупными операторами связи, и каждый оператор решает вот эту самую задачу — собирается ли от него уйти абонент, потеряет ли он его в ближайшее время или нет, и если у абонента есть признаки ухода, то к нему применяются самые разные маркетинговые воздействия. Типов таких воздействий имеются десятки, и это следующая задача, которая тоже может решаться методами машинного обучения — какое воздействие применить к данному абоненту. Но мы можем сейчас говорить о более простой задаче, это задача бинарной классификации: уйдет ли или не уйдет клиент в ближайшее время. Здесь тоже есть примеры бинарных признаков, номинальных признаков, количественных, и главная особенность этой задачи в том, что, во-первых, выборки очень большие, абонентов обычно миллионы, а во-вторых, что в общем-то признаковых описаний нет. И это пример задачи, когда исходные сырые данные — это транзакционные данные, то есть у нас есть информация о том, как абонент себя ведет, сколько и кому он звонит, сколько у него есть друзей, которые уже перешли к другому сотовому оператору, ну и так далее. И да, как он платит, на каком тарифном плане он «сидит». И вот из всего этого моря информации нам нужно придумать, каким образом выделить признаки, чтобы каждый абонент фиксировался, чтобы фиксировалась размерность вектора, которым каждый абонент описывается, чтобы не было такого, что у одного абонента описание всего его поведения занимает 1 Кб, а у другого 0,5 Гб. Вот от этого надо уходить и переходить к признаковым описаниям фиксированной размерности. Еще один пример прикладной задачи, снова из другой области. Теперь это область вычислительной лингвистики или же, если говорить о прикладных задачах, рубрикацией текстовых документов занимается огромное количество компаний, которые, например, анализируют Интернет с целью сделать тот или иной анализ общественного мнения. Этим занимаются многие информационные агентства, в общем, компании, которые работают с большим количеством текстовой информации. И здесь возникает задача, когда этой информации накоплено огромное количество: как ее аккуратно разложить по полочкам или по папочкам так, чтобы сотрудникам компании было удобно получать быстрый доступ к любой информации по какой-то ее тематике, по каким-то признакам, которые бы позволяли сказать, что в этом море информации вот этот вот кусочек относится к какому-то определенному событию, и его надо уметь быстро находить. И в таком случае, как правило, внутри компании строится какая-то структура папок, подпапок, структура директорий или рубрикатор свой собственный, иногда используются стандартные рубрикаторы. И наша задача в том, чтобы пришедший, каждый приходящий к нам документ, а поток документов — это могут быть сотни в минуту, разложить автоматически вот по этим рубрикам. Ну у этой задачи тоже есть свои особенности. Кроме того, что это поток документов, их много, действительно, и рубрик тоже много, есть еще одна особенность, что правильно разложенной по рубрикам может быть лишь часть документов, то есть метки классов могут быть не у всех документов, которые у нас есть, а только у небольшой доли. Еще одна особенность, что эта задача многоклассовой классификации, но при этом каждый объект, документ может принадлежать многим рубрикам. Ну и, конечно же, особенность еще и в том, что здесь тоже нет кем-то заданных признаков, надо нам самим придумывать, что будет признаками. Ну, конечно, самый распространенный признак в этих задачах — это частоты определенных слов или словосочетаний, или каких-то названий в текстах, и вот по этим ключевым словам и происходит классификация, но могут также использоваться и признаки, которые составляют метаописание документа: автор, издание, год и так далее. То есть много опять-таки разнотипной, разнородной информации, которая должна быть сведена в компактные признаковые описания. [БЕЗ ЗВУКА] [БЕЗ ЗВУКА]