Давайте подробнее познакомимся с Байесовским классификатором. Итак, в задаче классификации нам нужно по известному вектору признаков x определить класс к которому принадлежит объект. Байесовский классификатор пытается выбирать такой класс, для которого максимальна вероятность класса при условии x. Как мы уже знаем, из теоремы Байеса следует, что такая стратегия — то же самое, что выбирать тот класс, для которого максимальна вероятность вектора признаков x при условии класса, домноженная на априорную вероятность класса. Как это можно представить? Ну, например, если априорные вероятности будут одинаковы у классов, это просто означает, что мы выбираем тот класс, плотность которого больше в точке x. Зачем же нам понадобилась теорема Байеса? Вероятность класса при условии x, если ее оценивать «в лоб», фактически оценивается долей класса среди объектов с набором признаков x. Но в то же время признаки очень часто вещественные, но или их просто довольно много, поэтому всевозможных комбинаций признаков существует просто безумно много. Что это означает? Это означает, что, наверное, вряд ли в обучающей выборке для каждой возможной комбинации признаков у нас будет сотня-другая примеров. Значит и оценивать «в лоб» у нас не получится. Здесь нас и спасает теорема Байеса. С помощью нее мы переходим к вероятностям x при условии класса. Если координаты вектора x вещественные, то это будет плотностью распределения x при условии класса. Именно эту величину и можно оценивать по обучающей выборке. Оценив ее на этапе обучения, дальше мы можем просто применять наш классификатор. Однако здесь мы сталкиваемся с проблемой нехватки данных. Ну, например, нужно нам оценить вероятность x при условии класса, а в обучающей выборке 100 тысяч точек, а вектор x имеет размерность 10 тысяч. Как же быть, ведь 100 тысяч точек в пространстве размерности 10 тысяч это очень мало. Ну подумайте, даже если бы вектор x был бинарным, то у него было бы 2 в степени 10 тысяч различных значений, но это намного больше, чем 100 тысяч точек. Поэтому восстановить плотность как функцию от многих переменных достаточно затруднительно. Итак, Байесовский классификатор — это классификатор, принимающий решения по очень простому принципу. Он выбирает тот класс, для которого максимальна вероятность признаков при условии этого класса, домноженная на априорную вероятность этого класса. Чтобы обучить Байесовский классификатор, нам нужно восстановить эти вероятности. Оценивать вероятность признаков при условии класса как функцию многих переменных может быть довольно затруднительно. Нам может существенно не хватать данных. В следующем видео мы обсудим, как же можно преодолевать эту проблему.