Профессиональные покеристы знают оптимальную стратегию, но не всегда ей следуют

Сегодня игроки в покер могут использовать ИИ для поиска оптимальной стратегии игры, но делают это не так часто.

Профессиональные покеристы знают оптимальную стратегию, но не всегда ей следуют
«Олл-ин». Ваш противник двигает стопку фишек по столу для покера с высокими ставками. Вы смотрите на свои карты, там пара шестёрок. В партии техасского холдема ход остался только у вас, а общие карты (выкладываемые лицевой стороной) ещё не сдали. Для покера это очень простая ситуация, вам нужно сделать двоичный выбор: уравнять свою ставку со ставкой соперника (call) или спасовать (fold). Однако профессиональный игрок учитывает каждую деталь. Каким был паттерн ставок до олл-ина? Кто действовал первым? По сколько фишек есть у каждого игрока и сколько фишек на кону? Когда будут увеличиваться блайнды (вынужденные ставки)? И, разумеется, с какой вероятностью шестёрки выиграют? Вы выучили стратегию покера, запомнили таблицы вероятностей и выполняете вычисления в голове. Всё это указывает на то, что объективно лучшим решением будет спасовать. Но в течение долгого турнира вы заметили, что у противника есть склонность делать слишком большие ставки, имея слабую руку. Согласитесь ли вы с изученной информацией и спасуете, или подстроите свою стратегию на лету, чтобы воспользоваться замеченной слабостью?

Вопрос о том, использовать ли оптимальную с точки зрения теории игр стратегию или пользоваться хитростями — это главная тема обсуждений в покере высокого уровня. Его математические основы заложены ещё восемьдесят лет назад, но быстрый прогресс в развитии ИИ выдвинул математику середины двадцатого века на передний план современных игр. Новые инструменты учат игроков в покер оптимальной стратегии, но почему же те постоянно от неё отказываются?

▍ Оптимальная игра?

Объективно оптимальная стратегия может показаться противоречащей здравому смыслу, ведь игра основана на случайно сдаваемых картах и запутанной человеческой психологии. Например, в ней есть блеф — игрок притворяется, что его руку не победить, чтобы напугать противника и заставить его спасовать. Кажется, что лгать о своих картах — это исключительно психологический процесс, противоречащий строгой объективности. Но нам не следует недооценивать умение математиков превращать человеческое поведение в красивые уравнения.

На самом деле, в фундаментальной книге 1944 года математика Джона фон Неймана и экономиста Оскара Моргенштерна о математической теории игр «Теория игр и экономическое поведение» именно покер был выбран в качестве основного примера. Авторы проанализировали упрощённый вариант игры, сводящийся к самой основной её динамике: два игрока получают число от 0 до 1 (чем больше число, тем сильнее рука), а затем проводят один раунд ставок. Фон Нейман и Моргенштерн доказали не только существование оптимальной стратегии, но и то, что блеф является неотъемлемой её частью.

Разумеется, техасский холдем устроен гораздо сложнее, чем этот искусственный пример. Как вообще можно утверждать, что в покере со всеми правилами и на несколько игроков вообще может существовать оптимальная стратегия? Однако об этом заявил математик Джон Нэш. В 1950-х Нэш, получивший в 1994 году Нобелевскую премию по экономике, сделал большой шаг в зарождающейся области теории игр (в 2001 году о нём сняли биографический фильм «Игры разума»). Самое известное из его открытий, явление, теперь называемое равновесием Нэша, возникает, когда ни один игрок не получит преимущества при отклонении от выбранной им стратегии (при условии, что остальные игроки не отклонятся от своих стратегий).

Исследователи теории игр считают это состояние оптимальным, потому что когда оба игрока начинают игру с какой-то старой стратегией, а затем один из них адаптирует свою, чтобы получить преимущество, то, видя это, второй адаптируется под изменения и так далее. В конечном итоге они придут к стабильному состоянию, в котором ни один из них не сможет продолжать совершенствоваться. В равновесии Нэша игроки даже могут заранее объявить о своих стратегиях, но лучшим выбором для каждого всё равно будет сохранение равновесия. В своей одностраничной статье 1950 года Джон Нэш доказал, что каждая конечная соревновательная игра от маджонга до Magic: The Gathering имеет хотя бы одно равновесие Нэша.

Несмотря на своё название, теория игр применима к широкому спектру задач вне рамок традиционных игр, в том числе к экономическим системам, ядерному сдерживанию и эволюционной биологии. Под играми исследователи в этой области понимают любые взаимодействия принимающих решения рациональных сторон, чьи действия и результаты можно строго определить и проанализировать. Поэтому теорема Нэша имеет далеко идущие последствия. В покере она мотивирует к поиску оптимальных стратегий игры, которая изначально считалась основанной на интуиции и считывании подсказок.

▍ Революция искусственного интеллекта в покере

То, что мы знаем о существовании равновесия Нэша в техасском холдеме, не означает, что нам точно известно, как оно выглядит. С увеличением сложности игр становится всё труднее понять и их оптимальные стратегии. Научиться идеально играть в «крестики-нолики» можно за несколько партий, запомнив порядок ходов. В случае более сложных игр, например, шашек, которые в случае идеальной партии всегда заканчиваются ничьей, никто не способен запомнить достаточное количество вариаций, чтобы реализовать идеальную стратегию. Впрочем, учёные создали непобедимые алгоритмы, умеющие играть оптимально, потому что компьютеры могут хранить огромные базы данных ходов и выполнять исчерпывающий поиск в дереве игры, на что неспособны люди. Шахматные компьютеры побеждают лучших живых игроков с 1997 года (когда чемпион мира Гарри Каспаров проиграл в историческом матче с IBM Deep Blue), однако они всё равно не достигли оптимального уровня игры — следующее поколение шахматных движков победит текущее.

В отличие от шахмат, в покере мы имеем дело с неполной информацией. Игроки знают свои карты, но не знают карт соперников, что сильно усложняет создание вычислительной модели игры. Это объясняет, почему алгоритмическая революция в покере возникла только вместе с недавним бумом ИИ. В 2015 году специалисты по computer science объявили о создании алгоритма, по сути, реализующего идеальную игру для ограниченной версии покера со всего двумя игроками и фиксированными размерами ставок. Всего четыре года спустя появился первый сверхчеловеческий ИИ для техасского холдема на нескольких игроков. Стало появляться множество коммерческих инструментов, называемых солверами, и спустя лишь несколько лет у каждого профессионального игрока уже был собственный компьютерный карточный гений, подсказывающий, как играть практически в любой ситуации.

«Игра превратилась из загадочного искусства в строгую науку», — рассказывает бывший профессиональный игрок в покер и чемпионка Мировой серии покера Лив Боэри. Чтобы работать на опережение в современных условиях, опытные игроки изучают игру при помощи компьютерных программ наподобие PioSOLVER, аппроксимирующей оптимальные стратегии. Для простых и часто встречающихся ситуаций профессионалы способны запоминать рекомендации машин, а также извлекать более высокоуровневые уроки из их поведения в редких и более сложных случаях. Каждому элитному игроку в покер обязательно нужно проходить обучение с этими солверами. «Если вы захотите сыграть на высокие ставки с лучшими и не будете использовать солверы, то вас съедят заживо. Некоторые игроки отказались от этого и не стали работать с солверами. Чаще всего они остаются на обочине», — рассказывает Боэри.

Лив Боэри

ИИ смог подтвердить некоторые традиционные представления о стратегии техасского холдема, а также опровергнуть некоторые ошибочные принципы. Например, компьютеры добились успеха в «донк-беттинге» — стратегии, при которой инициируется первая ставка раунда ставок после простого уравнивания ставки (колла) другого игрока в предыдущем раунде. Ранее считалось, что донк-беттинг («ослиные ставки») — это любительский ход. Кроме того, ИИ продолжает играть в более широком спектре ситуаций, в которых живые специалисты спасовали бы. Как и шахматные движки, покерные солверы на несколько игроков не играют оптимально в буквальном смысле, но достаточно стабильно выигрывают людей, чтобы чему-то у них научиться.

▍ Как побеждать

Я намеренно дополнил формулировку равновесия Нэша важнейшей деталью: равновесие возникает, когда ни один из игроков не получит преимущества, отклонившись от выбранной стратегии (при условии, что другие игроки не отклонятся от своей). Когда другие игроки, несмотря на это, отклоняются от стратегии, то часто бывает правильно тоже поменять свою стратегию в ответ.

Возьмём в качестве наглядного примера игру «камень, ножницы, бумага». Каким будет её равновесие Нэша? Давайте подумаем: какая стратегия обоих игроков не оставит мотивации отклоняться от неё? Ответ: игроки должны выбрасывать камень, ножницы или бумагу абсолютно случайно, чтобы вероятность выбрасывания каждого из трёх значений составляла ровно одну третью, вне зависимости от предыдущих раундов. Можно заранее объявить об этой стратегии противнику, и он никак не сможет воспользоваться вашей откровенностью.

Если вы и ваш противник будете играть по этой равновесной стратегии, то будете выигрывать в половине раундов (исключая ничьи). А теперь предположим, что соперник отклонится от стратегии. Пусть он выбрал предельный случай и всегда играет бумагу. Если вы продолжите использовать равновесную стратегию, то всё равно будете выигрывать половину раундов, потому что с равной частотой будете показывать ножницы (победа) и камень (проигрыш). Но вместо этого вы можете использовать то, что противник отклонился от стратегии, и всегда показывать ножницы, чтобы разрезать его в каждом раунде. Даже если отклонения будут менее предельными, они всё равно дают возможность ими воспользоваться. Например, эмпирические исследования игры показывают, что когда люди побеждают в одном раунде, то они с чуть большей вероятностью повторят значение, с которым только выиграли. Знание этого может дать вам преимущество. Например, если вы только что проиграли камню, то в следующий раз сыграйте бумагу, потому что есть вероятность, что противник снова выбросит камень. Равновесие Нэша — единственная стратегия, не подверженная эксплуатации.

Та же самая динамика проявляется в покере в гораздо более сложном масштабе. В процессе изучения игроками более оптимальных стратегий их ИИ-помощников они также учатся определять, когда их противники выходят из оптимальной стратегии, и узнают, как лучше всего их за это наказывать.

Возможно, вы подумаете, что здесь можно схитрить: если противник отклоняется от стратегии, то не будет ли оптимальным решением безжалостно его использовать вместо того, чтобы придерживаться равновесия Нэша и оставлять на столе потенциально выигранные деньги? Если вы обнаружите, что противник отклоняется от равновесия Нэша предсказуемым образом, то можно самому отклониться, чтобы использовать его слабые стороны и заработать больше денег. Однако как только вы начинаете использовать отклонение, вы сами отходите от равновесия и открываетесь для удара. Если ваш соперник всегда выбрасывает бумагу, и вы начнёте выбрасывать только ножницы, то рано или поздно он это поймёт и начнёт выбрасывать камень.

Бывший покерный профессионал Игорь Курганов сформулировал это так: «Каждый раз, когда вы замечаете ошибку своего противника, вы совершенствуете свою модель того, как он рассуждает об игре, подстраиваете свою игру, чтобы учесть эту ошибку, таким образом сами становясь уязвимыми».

Большинство игроков согласно с тем, что для успеха на высоких уровнях покера нужно использовать сочетание оптимальной и «эксплуататорской» игры. Оптимальная больше рассчитана на оборону, «эксплуататорская» — на нападение. Некоторые учителя покера рекомендуют начинать турнир с имитации оптимальной игры и добавлять «эксплуататорские» тактики, только понаблюдав достаточное время за слабыми местами противников. От гибкости, с которой вы переключаетесь между стратегиями, зависит, станете ли вы жертвой или акулой. «Чем больше ваша уверенность в том, что в игре вы умнее противника, тем лучше работает весь процесс. Если вы считаете, что он на одном уровне с вами или выше, то следует использовать меньше „эксплуататорских“ изменений», — говорит Курганов.

Некоторые считают, что из-за появления сверхчеловеческих покерных движков игра потеряла свою интригу, в то время как другие заявляют, что компьютеры добавили в неё новый уровень. Боэри, ушедшая из профессионального покера в 2019 году и работающая сегодня популяризатором науки, филантропом и ведущей подкастов, относится к первому лагерю. «Мне показалось, что игра потеряла часть своей магии. Как будто загадка была решена», — говорит она. Но в то же время Боэри признаёт, что покере новой эпохи нет недостатка в энтузиастах. «Со времён COVID игра испытывает бум. В прошлом году в Мировой серии покера участвовало рекордное количество игроков. То есть очевидно, что это это не убило игру». Можно сказать, что постоянно меняющийся мир покера всё ещё находится в поиске своего равновесия.

Telegram-канал со скидками, розыгрышами призов и новостями IT 💻


 

Источник

Читайте также