ИИ-платформа AlphaGo Zero отточила мастерство игры в го без участия человека

ИИ-платформа AlphaGo Zero отточила мастерство игры в го без участия человека

DeepMind, подразделение холдинга Alphabet, продолжает работу над совершенствованием искусственного интеллекта. Именно специалисты DeepMind создали чемпиона мира по игре в го — платформу AlphaGo. Ей удалось выиграть у нескольких чемпионов мира по го, после чего стало ясно, что человек уже никогда не сможет победить машину.

Недавно DeepMind сообщила о появлении ещё более сильной системы компьютерного го, способной играть в го лучше, чем все предыдущие версии AlphaGo. Новинка получила название AlphaGo Zero. Эта платформа научилась играть в го без обучения на партиях, сыгранных человеком, сама по себе.

В «базе знаний» AlphaGo Zero — правила го и больше ничего. Тем не менее, программа очень быстро совершенствуется, играя сама с собой. Разработчики утверждают, что Zero освоила правила игры всего за несколько часов. Спустя три дня самообучения AlphaGo Zero победила AlphaGo Lee, версию ИИ, которая победила Ли Седоля со счетом 4:1 в 2016 году.

Через 21 день система играла уже на уровне AlphaGo Master — версии платформы, которая в этом году
одолела лучших игроков мира в го из списка топ-60, включая чемпиона мира Кэ Цзе во всех трех партиях.

Через 40 дней тренировок в играх против самой себя Zero без особого труда справилась со всеми своими прародителями. Ту систему, которая выиграла у Ли Седоля, AlphaGo Master одолела со счетом 100:0. По мере обучения система создавала «дерево» возможных ходов, оценивая последствия каждого.

Разработчики дали новой системе лишь основную информацию о правилах игры. В базу не заложили информацию об играх чемпионов. Система обучилась всему сама, играя со своей копией миллионы раз. На один ход уходило около 0,4 секунд. Если бы человек захотел пройти такое же количество партий, то ему понадобилось бы несколько тысяч лет. После каждой новой партии веса в нейросети и другие компоненты обновлялись. Интересно, что у AlphaGo Zero всего один слой нейросети, а на не два, как у предыдущих версий.

Создатели системы утверждают, что бояться мощи ИИ в данном случае не следует. Специалисты, создавшие эту систему, утверждают, что стиль ее игры в го похож на стиль некоторых мастеров, но это лишь в самом начале. Когда сражение достигает примерно середины, то специалисты обычно не видят никакой особенной стратегии — кажется, что система действует беспорядочно. Но на самом деле это не так — все ходы тщательно спланированы и направлены на победу.

Впервые Google рассказала про AlphaGo в 2015 году. Система работает с использованием двух нейросетей. Первая вычисляла возможность осуществления тех либо иных ходов, вторая — оценивала позицию камня на доске в ходе игры. Изначально систему обучали на примере партий игрокой-людей. В дополнение к нейросетям в AlphaGo был всё тот же поиск по дереву вероятностей при помощи метода Монте-Карло — часто встречавшаяся в хороших системах компьютерного го технология. В этом случае машина выбирает оптимальный ход, анализируя различные ходы. С течением времени разработчики AlphaGo добавляли все новые возможности, использовав и обучение с подкреплением. В этом случае система обучается без использования обучающей выборке партий.

Своим мнением о новой системе с нами поделился семикратный чемпион Европы Александр Динерштейн (3 профессиональный дан, 7 дан EGF).

Машина обучилась го полностью самостоятельно. Предыдущие версии AlphaGo для усвоения правил сначала прогоняли набор партий игроков-людей и лишь затем играли против копий самих себя, чтобы отточить игру. Версия AlphaGo Zero играла только с собой и научилась всему самостоятельно, но победила даже AlphaGo Master, которая играла против Кэ Цзе в мае. Согласны ли вы с тем, что при рассмотрении AlphaGo Zero исследователи даже не заикаются о матче с человеком и в качестве эталона для сравнения представляют только другую компьютерную систему?

Мне показалось, Zero стала играть в более человечное го, ходы стали проще для понимания, в игре меньше того, что мы называем тэнуки — это когда программа резко меняет планы, принципиально не отвечая на последний ход соперника. Из минусов: программа все еще повторяет одни и те же схемы в дебютах, что делает партии менее зрелищными. Го в этих партиях даже напоминает шахматы с их длинными изученными дебютами. А на самом деле в партиях людей часто уже после первых 5-10 ходов возникает позиция ранее не встречавшаяся — разбирать эти партии гораздо интереснее.

Я ожидал, что нам покажут игры на форе — ведь ходили утверждения о том, что свежая версия альфы может дать 4 камня форы той, что играла с Фаном (чемпионом Европы). Увы, эти партии все еще держат в секрете.

Про новые матчи ничего не слышно. Да и желающих среди профи как-то не видно. Понимают, видимо, что при игре на равных шансов нет, а играть на форе — это удар по самолюбию.

В своей работе разработчики замечают, как AlphaGo Zero постепенно сама изобрела некоторые дзёсэки (дебютные комбинации), включая одну комбинацию, которая встречается в профессиональной игре. Там же исследователи отмечают, что алгоритм проявляет некоторые свойства, характерные человеческой игре: захват территории, жадность, зоны влияния. Считаете ли вы корректным называть систему компьютерного го слабой формой искусственного интеллекта?

По новинкам в дебютах: как и в прошлых партиях альфа-ли и альфа-мастер мы встречаем ходы, которые люди считали плохими. Я уже 15 лет преподаю го и вспоминаю, что ругал своих учеников за такие ходы. Сейчас все профессионалы го пытаются их копировать, даже гордые японцы, которые редко брали на вооружение китайские и корейские новинки. Все согласны с тем, что идеи «Альфы» мощные, никто даже не пытается из опровергнуть.

Как AlphaGo поменяла философию го? Появились ли уже новые стратегии? Как полностью «нечеловеческая» AlphaGo Zero может изменить мир го?

Идеи AlphaGo сделали игру более скучной в дебютах. И это хорошо. Люди будут по-прежнему интересоваться партиями профессионалов, следить за их новинками. В наши дни в продаже и тем более в открытом доступе ещё нет программ, играющих в силу профи. Ожидаем японскую DeepZenGo 7 в ноябре этого года. Она будет играть в силу топ-профи (и этому есть подтверждения, так как она активно тестируется на го-серверах). Вот тут уже начнутся первые проблемы. Мы почувствуем себя в шкуре шахматистов с их вечными подозрениями в нечестной игре. И турниры на го серверах пострадают. Но это неизбежно. Хоть никто и не предполагал, что это произойдет так быстро.

Устоялся ли в сообществе го факт того, что отныне фору в матчах человек — компьютер придётся давать не алгоритму, а белковому игроку?

Вопрос по форе очень непростой. По игре программы видно, что она сильнее лучших белковых мастеров, но насколько? Ли Седоль, к примеру, уверен что на 2 камнях форы матч не проиграет. Было бы интересно провести матч на плавающей форе — в формате который применял Го Сейген в середине прошлого века. Но кто из топ профи на такое пойдет? На 2 форы профи у профи ранее выиграли — вспомним, к примеру матч Чо Хунхена с пятёркой претендентов на корейские титулы в 80-х годах. На моей памяти это был последний матч такого рода. А что если здесь нужно будет не два камня, а 3 или 4? Вы можете себе представить Каспарова, играющего матч с машиной без ладьи? Я — нет!

Любопытный вопрос. Один из программистов альфы ранее работал над самообучающейся шахматной программой giraffe, которая научилась играть в силу мастера за 72 часа. Он наверное приобрел много опыта, работая над го программой. Любопытно, сможет ли он написать новую шахматную программу по аналогии с «Альфой»? Или же подход с нейронными сетями не работает в шахматах? Мне очень интересен ответ на этот вопрос.

 
Источник

Читайте также