Тё Тикун и Deep Zen Go: ещё одна попытка превзойти человека в го

Тё Тикун и Deep Zen Go: ещё одна попытка превзойти человека в го

27 января 2016 года подразделение Google DeepMind впервые публично заявило о успехах своей новой разработки. Британская компания искусственного интеллекта, которую Google купила в 2014 году, пыталась покорить древнюю азиатскую игру го. В начале этого года статус го как игры, неподвластной компьютерам, был ещё непоколебим. Системы компьютерного го существовали, но играли на уровне любителей. Профессионалы проигрывали им только со значительной форой.

DeepMind построила AlphaGo на комбинации метода Монте-Карло и искусственных нейронных сетей. После создания системы, настройки её параметров и обучения нейросетей её испытали против других программ компьютерного го и чемпиона-человека. AlphaGo одолела европейского чемпиона 2013, 2014 и 2015 годов Фань Хуэя.

В Европе уровень владения го традиционно ниже, чем на родине игры, в Азии. В силе AlphaGo возникли вполне обоснованные сомнения. Но Google сразу объявила, что следующий поединок AlphaGo проведёт с обладателем 9-го профессионального дана Ли Седолем, одним из лучших игроков за последнее десятилетие. В марте прошла серия из пяти игр… и человек проиграл вновь со счётом 4:1. За шоком сообществ искусственного интеллекта и игроков в го последовало полное молчание о будущих матчах. Новых матчей против AlphaGo не запланировано.

Попытку одолеть AlphaGo осуществит команда японского проекта Deep Zen Go, которая пока учит свою систему играть против людей. На 19, 20 и 23 ноября запланированы три игры против Тё Тикуна, мастера 9-го дана из Японии. Интересен прогноз Ая Хуаня, работника DeepMind, который в марте в рамках исторического матча сидел напротив Ли Седоля и расставлял камни на доске за AlphaGo. Хуань считает, что новая версия Zen победит со счётом 3:0 или 2:1.

DeepMind решила по-настоящему сложную задачу. По правилам игры два оппонента расставляют на доске определённого размера (в профессиональных играх — 19×19) чёрные и белые камни. Камни можно захватывать, некоторые действия запрещены, существует ещё несколько правил, которые варьируются от варианта игры. Но цель всегда одна: выигрывает тот, кто отгородит территорию большего размера.

Для компьютерной системы внешне простая настольная забава представляет большую сложность: возможных позиций камней на доске 19×19 в сто порядков больше, чем шахматных фигур на доске 8×8. Камни не убывают, их становится больше — базу окончаний партий не создать. Из начальных ходов можно быстро вывести новую ситуацию, которую предусмотреть невозможно. Всё это осложняет создание мощных систем компьютерного го.

Первые программы, играющие в го, были созданы в 70-х годах. С начала 80-х проводятся чемпионаты мира среди компьютерных программ. Долгое время машины проигрывали людям на форе в 9 камней и более. До начала этого года достижением считалась победа на 4 камнях форы.

Последний писк технологий — поиск по дереву или метод Монте-Карло, экспертные системы с базой хороших ходов. В DeepMind к методу Монте-Карло добавили нейросети политики и ценности. Их натренировали с помощью 160 тысяч партий с сервера KGS игроков с шестого по девятый дан. Затем система училась в партиях против самой себя. Результат — разгром сначала европейского чемпиона 2-го профессионального дана, затем поражение корейского чемпиона 9-го профессионального дана.

Для Google смысл разработки — не только решение теоретической проблемы. Это хороший повод для гордости. Матчи посещал сооснователь поисковика Сергей Брин и другие заметные сотрудники. Все они хотели увидеть момент триумфа компании.

В последнее время набирают обороты системы искусственного интеллекта на тех же нейросетях. Сегодня почти у каждого в кармане есть интеллектуальный голосовой помощник, который умеет отвечать на вопросы на человеческом языке: Siri, Google Assistant или Google Now, Cortana. Компании любят напоминать, что это лишь верхушка айсберга их ИИ-достижений. К примеру, победу AlphaGo против лучшего из людей исполнительный директор Google Сундар Пичаи упомянул во вступительной речи во время презентации смартфонов Google Pixel в прошлом месяце. Напоминание о ней затесалось где-то между новой системой машинного перевода направлений английский←→китайский и улучшенными алгоритмами распознавания изображений и речи.

Победа Google «аукнулась» далеко. Матч прошёл в столице Южной Кореи и стал поводом создать фонд на триллион вон (860 млн $) для развития систем искусственного интеллекта. Разработчики других систем компьютерного го знакомились с отчётами DeepMind и научных исследований по AlphaGo и улучшали свои системы. Мало кому хочется терпеть столь резкого появившегося новичка на устоявшейся сцене программ го.

Deep Zen Go

1 марта, ещё до начала матча AlphaGo — Ли Седоль, создатель программы Zen Ёдзи Одзима и японская компания Dwango объявили о сотрудничестве по созданию распределённой версии Deep Zen Go. Для Одзимы Zen была любительским проектом, на который серьёзно тратиться он не мог. Компания была готова выделить оборудование и специалиста по машинному обучению. Также в разработке помогали команда глубинного обучения из Токийского унииверситета и разработчик программы Ponanza, самой успешной в мире системы компьютерного сёги, которая обыгрывает людей-профессионалов.

Конечная цель — победить AlphaGo, срок её достижения — от шести месяцев до года. По оценке авторов программы, AlphaGo имеет преимущество в 500 очков рейтинга Эло за счёт лучшего распознавания паттернов. Создатели Zen посчитали, что смогут достать 400 очков улучшением распознавания паттернов и 200 от других модификаций. Впрочем, эти оценки были даны до матча с Ли Седолем, лишь по данным игр с Фань Хуэем.

Работа началась. Проект ведёт отсчёт от 1 марта этого года с ветки одиннадцатой версии программы. В двенадцатой версии появляются первые наработки по машинному обучению. В версии 12.2 была встроена нейросеть ценности. В сентябре в версии 12.4 появляется машинное обучение. Как утверждают разработчики, их целью не было сделать копию AlphaGo, но наработки из статьи в Nature были учтены.

Реальная производительность Zen — не просто отчёты команды разработки. Систему можно «пощупать» на сервере KGS для онлайн-игр в го, где разные версии Zen уже несколько лет играют блиц по 15 секунд на ход. С марта шёл постепенный рост рейтинга ботов Zen. Сначала среди сотни лучших появился Zen19, следующая версия Zen19X вошла в 50 лучших игроков за счёт своих нейросетей, Zen19A пробил двадцатку.

Zen19K и получает на сервере KGS 8-й дан — у этой версии появилась нейросеть ценности. Физически этот игрок выглядит как сервер Kurisu с двумя четырёхъядерными процессорами Intel Xeon E5-2623 v3 и четырьмя видеоускорителями Nvidia GTX Titan X (Maxwell). Уже эта версия соперничает с профессионалами. К примеру, 30 августа российский го-профессионал и многократный чемпион Европы Илья Шикшин проиграл боту, а 31 — выиграл.

Последняя версия бота Zen19K2 впервые достигла на сервере 9-й дан и вышла на первую строчку рейтинга. Стоит отметить, что этот сервер более популярен в Европе и Америке, азиатские профессионалы го появляются на нём очень редко.


График роста рейтинга бота Zen19K2 с 8 сентября по 15 ноября 2016 года.

Поединок с человеком

Zen показывает прогресс и в официальных матчах против людей. В конце марта 2016 года Zen стала победителем девятого кубка компьютерного го, проводимого японским Университетом электрокоммуникаций. Это соревнование считается чемпионатом мира среди компьютерных программ по игре в го. Играли все сильнейшие программы, кроме AlphaGo — вероятно, в Google посчитали, что здесь им доказывать нечего. Как победитель турнира, программа Zen сразилась на 3 камнях форы с японцем Кобаяси Коити (9-й профессиональный дан) и одержала победу.

27 июля в рамках Чемпионата Европы по го, проходившего в этом году в Санкт-Петербурге, система Zen без камней форы играла против Чо Хеян (9 профессиональный дан), одной из сильнейших девушек-профи. Zen вновь оказалась сильнее. Так программа добралась до игры на равных с людьми.

Чтобы заявить миру о AlphaGo, в DeepMind провели матч с наиболее опытным и титулованным человеком-профессионалом из тех, которые были доступны территориально. Здесь настаёт похожий момент: по оценкам разработчиков, система достигла уровня AlphaGo образца матча с Фань Хуэем. Несколько дней назад для Deep Zen Go выбрали нового соперника.


Слева направо: один из разработчиков Zen Като Хидеки и Тё Тикун.

Тё Тикун — 60-летний мастер 9-го профессионального дана из Японии, один из сильнейших в мире го 80—90-х годов. За свою карьеру он выиграл более сотни крупнейших турниров. Три игры против него пройдут 19, 20 и 23 ноября. Это будут три игры с японскими 6,5 очками коми компенсации за игру белыми, со стандартной для крупной партии длительностью — два часа — и бёёми 3×60 секунд.

Против человека выступит мощный сервер с тепловыделением в пару лошадиных сил: два 22-ядерных процессора Intel Xeon E5-2699v4, 4 Nvidia Titan X (на этот раз новейший Pascal), ОЗУ в 128 ГБ, твердотельные накопители в 128 ГБ (системный) и два на 480 ГБ.

Интересно, что Ли Седоля одолел AlphaGo, который запускался в облаке Google Cloud Platform на 1920 процессорных ядрах и 280 видеоускорителях. Согласно статье в Nature, нераспределённая версия проигрывает распределённой в 77 % случаев. Но если верить данным отчёта DeepMind, и обычная, нераспределённая версия AlphaGo тоже не так уж и слаба. На графике справа сравнивается производительность AlphaGo на одной машине и в распределённом на кластер из множества серверов виде.

Игры будут транслировать в Сети с комментариями на японском. Неясно, будут ли официальные комментарии на английском.

19 ноября, суббота. Начало трансляции: 06:30 по московскому времени (12:30 в часовом поясе Японии). Начало игры: 07:00 МСК (13:00 JST). Игра первая.
20 ноября, воскресенье, время то же. Игра вторая.
23 ноября, среда, время то же. Игра третья.

Как видно, все три игры проходят в официальные выходные. 23 ноября в богатой на праздничные дни, но бедной на отпуска и отгулы Японии — День благодарности труду.


Через несколько дней определится исход матча с Тикуном. Силу игрока-человека можно предугадать и сделать прогноз. А вот о AlphaGo известно мало: ни одного публичного матча с марта мы не увидели. Неизвестно, насколько сильно стала играть разработка DeepMind за это время. Deep Zen Go продолжает улучшаться: разработчики надеются, что скоро их программа достигнет уровень AlphaGo образца марта 2016 года.

Для всеобъемлющего технологического гиганта отдать лавры ИИ-первенства даже в одном символическом направлении — непозволительно. Вместе с тем и ресурсов у Google больше. Но не стоит терять надежду, что новая азиатская разработка сможет обыграть AlphaGo в официальном матче, если стороны назначат поединок. Впрочем, для начала программе нужно научиться побеждать людей.

Автор благодарит за помощь в составлении статьи группу go_secrets.


Источник

alphago, Deep Zen Go, deepmind, go, google, google deepmind, zen

Читайте также