Кто будет чемпионом. Челябинские программисты научились прогнозировать исход футбольных матчей

27 Июля 2018 Автор: Евгений Аникиенко Фото: из личного архива Павла Подкорытова

В челябинском IT-парке 28-29 июля пройдет одно из первых в России соревнований-хакатонов по прогнозированию результатов футбольных матчей. Но это только старт «машинных» прогнозов.

Как утверждают разработчики, этот метод пригоден буквально для любого вида спорта. Вправду ли компьютер может предсказать победителя, ведь прошедший мундиаль преподнес немало сюрпризов? И что это реально может дать для развития массового спорта? Это и стало главной темой разговора с Павлом Подкорытовым, одним из разработчиков программы.

Кибер-баттл

— Как вы пришли к идее «футбольного проекта»?

— Акцент сделали на создании модели машинного обучения, которая будет помогать добиваться побед и в бизнесе, и в спорте. Это направление в России еще только начинает формироваться. Мы поставили перед собой цель создать модель, которая будет способна прогнозировать результат в самых разных отраслях, и спорт — хорошая площадка для обкатки этой инновационной модели.

— И с чего начали?

— При разработке этой модели мы воспользовались рекомендациями экспертов с мировым именем, в том числе московского ученого Станислава Семенова, который числится вторым номером в рейтинге специалистов по анализу данных Kaggle.com. Он побывал в Челябинске, поделился своими мыслями по созданию «искусственного интеллекта». Соревнования по машинному обучению и анализу данных традиционно проводятся, например, на Kaggle.com — одной из самых популярных онлайн-площадок таких «баттлов», в том числе и в спортивной сфере.

— Как работает ваш виртуальный оракул?

— Для нашей модели мы используем машинное обучение (англ. machine learning, ML). Это большой раздел искусственного интеллекта, который включает в себя класс алгоритмов, способных «обучаться» для решения различных задач. Для построения таких методов используются математическая статистика, численные методы, теория вероятностей, теория графов…

При создании «футбольной модели» мы пошли дальше: прогноз делается на основе большого набора данных: как футболист играл раньше, сколько забил голов, сделал результативных передач, какой ногой чаще бил. В зачет берется скорость, агрессия, «потенциал» и прочие параметры игрока. Эта информация закладывается в математическую модель, результатом работы которой и является прогноз исхода этого матча.

— А как научить машину учитывать все эти, казалось бы, непредсказуемые нюансы взаимоотношений в команде?

— С помощью математического моделирования мы учитываем фичи — ключевые параметры, влияющие на конечный результат. Например, для участников хакатона подготовили бэйзлайн, это минимальное решение, которое смогут повторить даже новички. Мы обучили нейросеть на данных 14 тысяч реальных игр, победитель которых известен. А затем предоставили нейросети для прогноза 6 тысяч матчей. В итоге даже с минимальными затратами можно получить неплохую точность — около 80 %. Однако это не предел, и на соревновании мы ждем от участников улучшения этого показателя. Чемпионом хакатона будет тот, кто покажет лучший результат. Это проверяется с помощью валидации — сопоставления виртуального и реального счетов. В итоге определяется победитель хакатона, который лучше просчитал результат игры.

— В чем инновационность вашего предсказательного метода?

— Свои модели мы строим во многом на базе существующих open-source-библиотек, таких как Tensorflow, Keras и прочие. Чтобы научить нейросеть выдавать нам нужный результат, мы используем собственные алгоритмы, доля которых — более половины от общего количества. Мы проанализировали около 20 разных архитектур и их комбинаций, выстроили алгоритмы работы так, чтобы нейронные сети качественнее обучались и выдавали самый точный результат.

Правила игры

— А чем ваш проект может помочь тренерам, футболистам?

— Нейросети используются уже сейчас при формировании команды в топовых клубах по американскому футболу. При этом учитывают те же параметры, что и мы в своей модели для футбола. В целом сейчас мы ближе к инновационному бизнесу, чем к спорту: создаем логическое продолжение «футбольного кейса» — модель, которая поможет спрогнозировать сроки ухода из коллектива не только спортсмена, но и работника любого предприятия. Она подскажет, как эффективно он будет работать, сколько пользы принесет проекту. Для этого анализируется масса данных: уровень зарплаты, результаты анкетирования сотрудников, прочая информация, часть которой подгружается из социальных сетей.

Наша модель может пригодиться и в любых других спортивных направлениях: в хоккее, водном поло — везде, где есть параметры, которые можно оцифровать.

— Не воспользуются ли вашей моделью делающие ставки на интернет-тотализаторе?

— Нашей моделью смогут воспользоваться только те, кому мы предоставили к ней доступ, и букмекерских компаний среди них нет. Эта задача, конечно, далека от «больших данных», но тем не менее она вовсе не тривиальна. Наши программисты имеют большой опыт, множество решенных кейсов в этой области, но даже их прогнозы не показывают 100-процентную точность, просто потому, что на имеющихся мощностях это невозможно (хотя мы и приблизились к этому значению). Вряд ли букмекерские компании используют машинное обучение для построения прогнозов, но даже если и так, это вовсе не гарантирует им «выигрышных ставок».

— Может ли ваша прогнозная модель, кроме спорта, пригодиться и в других сферах?

— Более того, наши модели уже работают в других областях. К примеру, мы научились предсказывать объемы продаж в разных областях бизнеса с точностью от 82 до 97 %. При этом учитываем более 200 параметров: динамика продаж за последние годы, спрос и предложение, сезонность, погода... Наглядный пример — созданная нами предиктивная (предсказательная) модель продаж пиццы, точность которой приближается к 84 %.

Наша модель может помочь работодателям в подборе сотрудников, в оценке их деловых качеств и в прогнозировании перспектив роста. Кроме того, для одной из фирм разработали систему оценки дресс-кода сотрудников с помощью обученной модели компьютерного зрения: если кто-то пришел на работу одетым вразрез с корпоративными требованиями, машина сразу сообщит об этом.

Добавлю, что с помощью машинного обучения можно также прогнозировать популярность публикаций и рекламы.

Но и о футболе мы не забываем, и один из предлагаемых вариантов — доработать нашу модель, сделав ее своего рода тренажером для будущих чемпионов. По задумке, тренеры и спортсмены смогут «обкатать» матч в киберпространстве, чтобы избежать возможных ошибок и просчетов в реальной игре.

Новости smi2.ru