Покерный бот Pluribus решил 6-макс NLHE

На этой неделе человечество сделало огромный технологический шаг вперёд и по совместительству «убило» 6-макс по безлимитному холдему. В этом материале расскажу, как покерный бот Pluribus от разрабочиков Facebook и университета Carnegie Mellon безоговорочно обыграл лучших профессионалов мира.

Экскурс в историю

Начну с небольшой истории, чтобы картина была полнее. В 2015 году на свет появился покерный бот Claudico от специалистов университета Карнеги-Меллона (Carnegie Mellon), что находится в Пенсильвании, США. Проектом руководил Туомас Сандхольм (Tuomas Sandholm) и его творение потерпело сокрушительное поражение от сильнейших покеристов из плоти и крови.

Спустя пару лет, в 2017, Туомас Сандхольм и его помощник Ноам Браун (Noam Brown) выпускают очередное творение — покерного бота Libratus, который умеет играть хедз-ап NLHE. Он первый обыграл людей на длинной дистанции с разгромным винрейтом почти 15bb/100.

Мы много писали об этом. Повторяться не хочется, поэтому лучше почитайте:

Когда Либратус победил команду Дугласа Полка в 2017 году, люди разделились на два лагеря. Кто-то кричал, что покеру пришёл конец, а кто-то крутил у виска и успокаивал себя тем, что бот смог решить только хедз-ап, да и то при использовании суперкомпьютера за несколько миллионов долларов.

И в 2019 году учёные создали ЕГО...

Рождение нового терминатора Pluribus был создан для решения безлимитного холдема в формате 6-макс. И у него получилось. Против бота играли добровольцы из онлайна и офлайна, у каждого из которых как минимум миллион долларов профита, а у отдельных $10,000,000+.

Полный список добровольцев:

Линус Лёлигер (Linus Loeliger)
Крис Фергюсон (Chris Ferguson)
Грег Мерсон (Greg Merson)
Даррен Элиас (Darren Elias)
Джейсон Лес (Jason Les)
Майкл Гаглиано (Michael Gagliano)
Сэт Дэйвис (Seth Davies)
Тревор Севедж (Trevor Savage)
Джимми Чау (Jimmy Chou)
Энтони Грэг (Anthony Gregg)
Донг Ким (Dong Kim)
Ник Петранжело (Nick Petrangelo)
Шон Руане (Sean Ruane)
Джейк Туле (Jake Toole)
Дэниел МакОлей (Daniel McAulay)

Особенно обращаю ваше внимание на первое имя, так как LLinusLLove считается одним из сильнейших, если не сильнейшим 6-макс игроком в NLHE. Все без исключения игроки сыграли в минус против бота.

Как проходило соревнование Каждый из добровольцев сыграл по 10,000 раздач против Pluribus-a в двух ситуациях (итого 20,000 раздач):

1 бот + 5 людей за игровым столом
1 человек + 5 ботов за игровым столом

Стеки всегда были по 10,000 фишек, блайнды 50/100. В первом случае бот играл с результатом 5bb/100 (!), а во втором эксперименте ни один из испытуемых не вышел в плюсе. Лучший результат показал Линус Лёлигер — он играл минус 0,5bb/100, у остальных было значительно хуже. По результату тестов учёные посчитали это победой Pluribus-а.

Идеальный бот, который учит сам себя Гениальность Pluribus-a заключается в трёх вещах.

Во-первых, он победил в игре с неполной информацией и несколькими (!) оппонентами, а не один на один. До этого боты могли обыграть человека только в так называемых "нулевых" играх (zero-sum game или проще говоря один на один) или в играх с полной информацией. Pluribus сделал качественный шаг вперёд.

Во-вторых, вычислительная мощность, которая требуется для Pluribus-a составляет всего 128 GB RAM и 2 процессора. Это максимально близко к бытовому ПК. Для сравнения, алгоритм Google AlphaGo, который обыграл лучшего игрока в мире по Го в 2016 году, использовал суперкомпьютер из 2200 процессоров (!).

В-третьих, Pluribus сам себя обучил покеру. В него не загружали стратегии, базу рук, ~~VODы Инвокера на NL200~~. За 6-макс стол посадили шесть ботов, поставили им правила игры и они сами себя обучили оптимальной игре в покер. Поначалу все их действия и размеры ставок были случайными, но спустя несколько дней непрерывной игры и шлифовки стратегий, они приблизились к совершенству. К слову, обучается бот крайне быстро — если Pluribus играет с копиями самого себя, то одна раздача занимает всего 20 секунд.

По словам разрабочиков, за 7 часов обучения бот научится играть на уровне обычного любителя, за 20 часов встанет на уровень топ-игрока среди людей, а через 60 часов он... перестанет лимпить. Да, всё верно — бот Pluribus, который обыграл лучших в мире покеристов вообще не использует лимпы.

Почему бот Pluribus настолько эффективный?

Технологический прорыв бота Pluribus произошёл благодаря качественному улучшению алгоритмов, которыми он пользуется. Насколько я смог понять, все предыдущие покерные боты нуждались в супер-компьютерах, чтобы обрабатывать миллионы вариаций, как может завершиться раздача. То есть, в любой момент раздачи, бот анализировал её до самого конца. Поиск и анализ оптимального и полного древа решений занимал много времени и был около нереальным для игры в 6-максе.

У Pluribus-а разработчики упростили анализ раздачи до ближайших шагов, тем самым упростив жизнь боту. То есть, основываясь на результативности миллионов сыгранных ранее раздач, боту проще понять, какое действие оптимальнее в конкретной ситуации.

Одним из самых важных моментов в работе любого игрового бота является выдача решения. То есть, в программе всегда есть готовая «база решений», но для выдачи самого оптимального в реальном времени требуется много времени, ведь в том же покере вариаций миллиарды. Pluribus игнорирует отдельные решения, а также группирует схожие, чтобы впоследствии ему было проще искать среди них оптимальное.

Отзывы испытуемых о Pluribus

Крис Фергюсон: «Pluribus — очень сложный оппонент. Невероятно трудно положить его на какую-то руку. Он также очень хорошо умеет делать тонкие вельюбеты на ривере. Да и в целом, он отлично собирает велью с хороших рук»

Джейсон Лес: «Это просто монстр блефа. Я могу сказать, что он блефует куда эффективнее большинства людей, именно из-за этого против него так трудно играть. На тебя постоянно оказывается сильное давление от AI, хотя ты знаешь, что сейчас он может блефовать»

Джимми Чау: «Каждый раз, когда играю против ботов, выношу что-то новое для себя. Мы, люди, стремимся к упрощению игры для её лучшего понимания, а также эффективного использования стратегий и запоминания информации. Бот себе такого не позволяет — у него невероятно сложное и сбалансированное древо решений на каждую игровую ситуацию»

Зачем создали этого бота?

Само собой, ради светлого будущего человечества. Разработчики не собираются выкладывать его в открытый доступ, чтобы онлайн покер потерял весь смысл. Просто покер в его 6-макс формате является отличным плацдармом для решения ситуаций с несколькими участниками и неполной информацией.

Иточник

В дальнейшем разработки на основе Pluribus могут применяться в сфере кибербезопасности, против мошеннических схем, в поиске и удалении «вредного» контента, а также во многих других.

Покерный бот Pluribus решил 6-макс NLHE

Экскурс в историю

Комментарии (0)