22 года развития ИИ в хронологии матчей – от шахмат до киберспорта.
В разработки в области искусственного интеллекта сегодня вкладываются в разных сферах деятельности – от digital-гигантов до относительно небольших B2B-компаний. Все они стремятся автоматизировать и оптимизировать процессы. По оценкам Markets and Markets, к 2025 году объём рынка ИИ достигнет 191 миллиарда долларов. Для сравнения — в 2018 году рынок оценивался в 21,5 миллиарда долларов.
Среди тех, кто инвестирует в искусственный интеллект, есть хорошо известные мировые бренды: Google, Facebook, Microsoft, Amazon, Intel, Apple. Они занимаются созданием программ и устройств, которые оценивают «среду» или массив данных и предпринимают действия, максимизируя шанс на успех или достижение цели. В широком смысле ИИ учится и решает проблемы. Конечной целью является интеллект человеческого уровня, но даже самые передовые разработки ещё далеки от создания столь сложного ИИ.
Один из способов проверить совершенство ИИ – противопоставить его человеку. Устроить матч, попросив профессионального игрока топ-уровня сыграть против машины. С годами сложность игр, на которых тестируют интеллект, повышается. Вначале матчи «компьютер vs человек» проводились в шахматах, вскоре разработчики перешли на го.
Сейчас компьютер уже легко обыгрывает сильнейших гроссмейстеров мира, а в конце ноября чемпион по го Ли Седоль объявил об уходе из спорта из-за превосходства искусственного интеллекта. Новый бенчмарк для ИИ – покер и киберспорт.
«Решающий бой мозга» Гарри Каспарова
Компьютеры играют против людей в шахматы с конца пятидесятых. Первого гроссмейстера мирового уровня искусственный интеллект победил в 1989 году. С тех пор ИИ развился настолько, что даже мобильные приложения способны обыграть чемпионов мира – в 2009 году HTC Touch HD выиграл шахматный турнир, обрабатывая в секунду не больше 20 тысяч возможных позиций.
Самой яркой вехой противостояния компьютеров и шахматистов считается 1997 год, когда компьютер впервые обыграл чемпиона мира по шахматам в матче из 6 партий. В историю вошли программа IBM Deep Blue и россиянин Гарри Каспаров.
Каспаров встречался с Deep Blue не первый раз. Годом ранее он проводил такой же матч из 6 партий. Гроссмейстер уступил первую игру, но затем перехватил инициативу и добился убедительной победы, выиграв 3 партии и один раз сыграв вничью. Ещё раньше Каспаров говорил:
Предстоящий реванш с Deep Blue журнал Newsweek называл «Решающим боем мозга».
Матч 1997 года сильно отличался от предыдущей встречи Каспарова с Deep Blue. Гроссмейстер выиграл первую партию, проиграл вторую, свёл три последующих вничью и был разгромлен в заключительной шестой игре.
«Вторая партия не просто обернулась поражением. Я не смог оправиться после него. Во второй партии я проиграл матч», – сказал Каспаров в документальном фильме о матче с Deep Blue.
Призовой фонд составлял 1,1 миллиона долларов, 700 тысяч из которых должны были достаться победителю. В комнате, где проводилась встреча Deep Blue и Каспарова, обустроили полноценную студию с несколькими камерами.
Сам матч проводился на привычной для Каспарова и зрителей шахматной доске. Возле Каспарова стоял маленький флаг России, по другую сторону – флаг США. Напротив гроссмейстера сидел обычный человек, который двигал фигуры. Куда именно ставить фигуры, ему указывал искусственный интеллект. Монитор с виртуальной шахматной доской стоял на столе справа от сотрудника IBM.
Последняя шестая партия закончилась после 19 ходов. Каспаров быстро сдался, поняв, что ошибка в начале не даст ему выиграть. Он встал из-за стола и быстро вышел из комнаты. Гроссмейстер долго не мог прийти в себя, заявляя, что команда программистов Deep Blue играла нечестно. Его не устраивало, что правила матча разрешали программистам модифицировать программу между партиями. Каспаров требовал от IBM логи партий, но ему отказали – позже компания опубликовала всю хронологию матча.
Программа Deep Blue вошла в историю, а IBM сделал из шахматного матча в Нью-Йорке событие мирового масштаба. О нём рассказывали в новостях, писали в прессе, снимали документальный фильм. На съемках документалки Каспаров сказал, что матч должен был пойти на пользу шахматам, науке и обществу, но он пошёл на руку только IBM. Российский гроссмейстер считал, что команда IBM была настроена «убить его любой ценой».
Каспаров просил о реванше, но ему отказали. Поквитаться с машиной российскому шахматисту дали в 2003 году, когда ФИДЕ организовала матч «Человек vs Машина» с призовым фондом в миллион долларов. Соперником Каспарова стала программа Deep Junior.
У Каспарова были все шансы реваншироваться. Для тренировок ему выдали доступ к программе. Deep Junior анализировал 3 миллиона возможных ходов в секунду, когда как Depp Blue – 200 миллионов ходов. Поэтому ответов на ходы Каспарова порой приходилось ждать по 25 минут.
Гроссмейстер выиграл первый матч, проиграл второй и три раза подряд сыграл вничью. Повторялся сценарий встречи 1997 года. Заключительную шестую игру транслировали по ESPN2, её аудитория достигала 300 миллионов человек. Каспаров смог добиться хорошей позиции, но предложил закончить матч вничью. Как позже признался шахматист, он боялся совершить ошибку под навалившимся на него давлением.
С тех пор компьютеры шагнули далеко вперёд, и чемпиона мира может обыграть даже мобильный телефон. Именно поэтому смартфоны запрещены на турнирах. Гроссмейстеры окончательно смирились с превосходством машин в шахматах.
«Мы уже давно знаем, что компьютеры лучше людей. Для меня компьютер никогда не был настоящим соперником, – говорит чемпион мира Магнус Карлсен. – Это лишь инструмент, позволяющий мне анализировать себя и улучшать свою игру. Я никогда бы не стал проводить публичный матч против компьютера. Мне намного интереснее играть с людьми».
Го – это Священный Грааль
Вслед за шахматами компьютеры доказали своё превосходство в древней китайской игре го. Один из лучших игроков в го в истории завершил карьеру, потому что не видел смысла продолжать соревноваться с искусственным интеллектом.
Тремя годами ранее Ли Седоль провёл матч против искусственного интеллекта компании DeepMind. Эта встреча человека и машины стала новой вехой в развитии ИИ, поскольку го до 2016 года оставалась непокорённой высотой для программ. Чтобы победить профессиональных игроков, требовался алгоритм, способный обрабатывать в триллионы раз больше информации, чем при игре в шахматы.
Перед началом игры доска пуста. Первыми всегда ходят чёрные, затем белые. При игре с форой слабейший всегда играет чёрными, и несколько чёрных камней выставляются на доску до начала партии. Для сравнения, в шахматах есть 400 вариаций первых ходов, в го – 129960.
«Игра го – это Священный Грааль. Что бы мы ни пробовали в разработке искусственного интеллекта, он спотыкался о го», – говорит Демис Хассабис, основатель британской компании DeepMind, занимающейся искусственным интеллектом.
Разработки DeepMind обкатывали на разных играх. Например, искусственный интеллект играл в Atari Breakout. ИИ DeepMind основан на трёх компонентах: первый – имитирует человеческое поведение в игре, второй – оценивает каждую позицию и рассчитывает вероятность выигрыша при различных вариациях, третий – ищет выигрышные вариации и делает прогноз на 50-60 шагов вперёд. DeepMind использует нейронные сети и метод обучения с подкреплением, когда программа проводит и анализирует сотни тысяч игр, накапливая опыт.
Программа, которая совершила прорыв и обыграла лучших игроков в го, называется AlphaGo. Первым профессионалом, который ей проиграл – стал китаец, живущий в Европе, трёхкратный чемпион Европы Фань Хуэй. Он впервые сыграл против AlphaGo в 2015 году и проиграл все пять матчей. Матч проходил в офисе DeepMind. После игры Хуэй на несколько часов ушёл из офиса и, как говорят сотрудники британской компании, был шокирован.
DeepMind рассказал об успехе прессе. В новостях победу над игроком в го называли прорывом. Это действительно был новый ориентир для разработок в области искусственного интеллекта, но интернет и сообщество игроков в го придерживались иного мнения. В сети появилось множество комментариев, что Фань Хуэй слишком давно живёт в Европе, чтобы считаться мерилом для ИИ, играющего в го. Тогда DeepMind решил сыграть с Ли Седолем – одним из сильнейших игроков. Преподаватели быстро разглядели в нём талант. Он обыгрывал соперников гораздо старше себя. В сообществе го Ли Седоля с 8 лет считают гением.
Матч решили проводить в Корее. Встреча AlphaGo и Седоля стала событием национального масштаба. За трансляцией следили 80 миллионов человек. Течение встречи выводили на большие экраны на улицах города. Го – часть культурного наследия Кореи, поэтому Ли Седоль – известная личность в своей стране, и народ болел за него.
Перед игрой Седоль общался с Демисом Хассабисом и интересовался, насколько AlphaGo стал сильнее по сравнению с предыдущем матчем. Но какой-то специальной подготовки Седоль не проводил. Он был уверен, что обыграет программу и говорил на пресс-конференции: «Не хочу звучать высокомерно, но, думаю, у меня будет преимущество. Уровень игрока, с которым AlphaGo встречалось ранее, далёк от моего. Со времени того матча прошло всего пару месяцев и, на мой взгляд, этого недостаточно, чтобы сравняться со мной. Считаю, что я выиграю со счётом 5:0 или 4:1. Главное для меня – не проиграть одну партию».
Основатель DeepMind Демис Хассабис понимал, что возможности AlphaGo намного выше – операторы поймали момент, когда Хассабис улыбается, слушая заявления Седоля. Этот момент вошёл в документальный фильм Netflix.
AlphaGo сильно прибавил за несколько месяцев – в том числе потому, что в команду в качестве консультанта вошёл профессиональный игрок в го. Вместе с программистами теперь работал Фань Хуэй, вошедший в историю как первый профессионал, уступивший AlphaGo.
9 марта Ли Седоль сел за стол, по другую сторону которого его ждал представитель компании DeepMind, выставлявший камни на доску за программу AlphaGo. Седоль ходил первым. Затем повисла волнительная пауза, так как свой первых ход AlphaGo делал больше 30 секунд. Большую часть партии кореец, как казалось, держал течение игры под контролем, но в последние 20 минут AlphaGo смог переломить ход встречи. Седоль проиграл первую партию – к своему удивлению и шоку окружающих. После игры он сказал, что ИИ сделал один необычный ход, который не сделал бы человек.
На следующий день Седоль и AlphaGo провели вторую партию. Вновь выиграл AlphaGo. Ли Седоль был поражён. Он заявил после игры, что программа не только действует по алгоритму, но и проявляет креативность. Ли Седоль ярко реагировал на ходы программы. Он потирал лоб, щипал себя за кожу на ладони и выглядел озадаченно. По привычке кореец поглядывал на человека перед собой после ключевых ходов в партии. Он ждал реакции, но сотрудник DeepMind лишь переставлял камни за программу.
На Ли Седоля свалилось громадное давление. К третьей партии он изменил свой стиль и начал действовать агрессивнее, но в итоге проиграл досрочно. Казалось, что Седоль разбит течением матча. Он рассчитывал выиграть 5:0, но уступал всухую 0:3. По ходу игры он выходил на улицу, чтобы подумать и остаться наедине. После третьей партии Седоль общался с другими игроками го, чтобы проанализировать свои ходы и решения AlphaGo. Организаторы даже пригласили друга Ли для поддержки.
В четвёртом матче восемнадцатикратный чемпион мира Ли Седоль смог добиться победы, которой радовались даже программисты DeepMind. На сегодня эта победа – единственный случай, когда AlphaGo проиграл человеку.
Профессионалы отмечают, что AlphaGo делает нетрадиционные ходы, которые считались экспертами рискованными и неправильными. Сейчас игроки заимствуют некоторые стратегии, подсмотренные у искусственного интеллекта. Вдобавок, AlphaGo ориентирован на победу, но не заточен на набор очков. Человек же обычно пытается добиться максимального преимущества. Программе, напротив, достаточно просто следовать алгоритму, который гарантирует максимальную вероятность победы в матче.
ИИ, который подсматривает в карты
Считается, что покер сложен для компьютера. Человек обычно быстро распознаёт стратегии внутри программы и находит путь к победе. Осложняют ситуацию для ИИ нелимитированные ставки. Долгое время ни один компьютер не мог обыграть топового игрока в Texas Hold ‘Em поке, но спустя всего 9 месяцев после успеха DeepMind в Корее случился матч в Питтсбурге, где программа Libratus выиграла 701 тысячу долларов у четырёх профессиональных игроков в покер.
Lubratus с латинского значит «сбалансированный». Он основан на той же технологии, что и AlphaGo – программа учится, играя против самой себя и имитирую различные расклады. Перед встречей с профессионалами Libratus сымитировал триллионы раздач. Внутри программы три модуля: первый – учится играть в покер и рассчитывает стратегию для каждой ситуации, второй – отвечает за принятие решения, третий – постоянно обновляется и накапливает опыт. Первый матч, который провёл Libratus, получился хаотичным. Программа принимала случайные решения – поднимала ставки, пасовала, принимала ставки. Эта хаотичная партия стала фундаментом для построения стратегии, которая впоследствии оказалась выигрышной.
Раньше Ким уже обыгрывал предыдущую версию Libratus. Но он признаётся, что программа сильно эволюционировала. Искусственный интеллект действовал непоследовательно, но даже если удалось понять его стратегию, на следующий день она менялась и приходилось привыкать к манере соперника заново. Сделать это удавалось не всегда.
Единственной отговоркой для игроков в покер может быть то, что ИИ играл в упрощённую версию. Ставки были лимитированы, чтобы Libratus мог действовать в определённых рамках и не запутался. Разработчики говорят, что их программа не играет в покер, а скорее применяет алгоритм к некой абстракции игры. Тем не менее уже очевидно, что ИИ научился работать в условиях несовершенной информации – победы в го и покер это подтверждают.
«Довольно ясно, что на данный момент безоговорочное превосходство людей даже не стоит на повестке», – сказал игрок в покер Джейсон Лес.
«Опыт 100 человеческих жизней»
Для широкой аудитории видеоигры не обладают таким же интеллектуальным престижем, как го или шахматы, но компьютерам киберспорт даётся намного сложнее, чем игры на доске. Видеоигры сложнее покера, потому что уровень недосказанности для игроков ещё выше. Среда, в которой работает искусственный интеллект, постоянно меняется. Игровое поле полностью не открыто. Возможностей ответных ходов у противника гораздо больше.
В 2019 году компания DeepMind, обыгравшая чемпиона мира по го, устроила матч для своего искусственного интеллекта AlphaStar. Программа встретилась с профессиональным киберспортсменом на игровом поле видеоигры StarCraft II.
AlphaStar работает по той же модели, что и AlphaGo. В него заложена нейронная сеть, которая обучается под присмотром супервайзера и играя миллионы партий против самой себя. StarCraft выбрали потому, что Blizzard открыл игру для исследователей в области ИИ. Это помогло разработчикам сделать новый шаг вперёд в своей работе.
«Мы много раз пропускали через ИИ матчи профессиональных и обычных игроков, чтобы AlphaStar понял и оценил ситуацию, в которую попадает человек в игре. Потом мы пытаемся имитировать решения человека», – говорит исследователь DeepMind Ориоль Винялс.
С помощью имитаций DeepMind отточил базовые итерации игры. Затем нейронная сеть играла сама с собой на протяжении двух недель. За это время AlphaStar накопил 200 лет игрового опыта StarCraft II.
Чтобы уровнять возможности игроков и искусственного интеллекта, AlphaStar ограничили. Искусственному интеллекту снизили скорость принятия решений, чтобы программа не обыгрывала профессионалов чисто за счёт скорости принятия решений. Когда компьютер обучался, он видел всё открытое игровое поле. Во время публичных матчей с людьми обзор сократили до того же фокуса, что и у игроков.
AlphaStar играл по отдельности против Дарио TLO Вюнша и Гжегожа MaNa Коминча. В первых матчах оба профессионала проиграли. Тогда они противостояли версии AlphaStar, у которой не было ограничений по обзору карты. На открытый для публики матч DeepMind выставил прототип, который работал с картой так же, как пользователь, и накопил в 10 раз меньше игрового опыта – 20 лет в игре вместо двухсот. Матч MaNa против AlphaStar транслировали на YouTube и Twitch. И в этой встрече профи обыграл искусственный интеллект.
Искусственный интеллект также пробовал свои силы в другой стратегии Blizzard – с 2017 года ИИ играет в Dota 2. Тогда украинский профи Dendi проиграл программе от компании OpenAI в матче один на один. Бот для Dota обучается теми же методами, что и бот AlphaStar, игравший в StarCraft. Грег Брокман, один из основателей OpenAI, говорит, что человеку нужно играть от 12 до 20 тысяч часов, чтобы достичь уровня искусственного интеллекта, так как программа «каждый день поглощает опыт 100 человеческих жизней».
У бота было две задачи – убивать противника и захватывать новые территории, поэтому искусственный интеллект вёл себя не так, как игроки. Например, при обороне своей «базы» программа, отбившись, шла добивать соперника, когда как человек оставил бы охрану на месте, дав сопернику отступить и перегруппироваться.
В 2018 году бот OpenAI научился играть в Dota 2 пять на пять. Искусственный интеллект обыграл любителей и полупрофессионалов. Компьютер попробовали и против профи, проведя матч на турнире The International 2018, но победить не получилось. После этого в компанию с инвестициями пришёл Microsoft. Спустя год Open AI обыграл действующих чемпионов мира в выставочном матче в Сан-Франциско. Более того, искусственный интеллект на четыре дня сделали доступным для всех игроков. За это время бот OpenAI сыграл 42 729 матчей и процент побед составил 99,4. Но нужно отметить, что ИИ играет в Dota 2 примерно так же, как в покер – в ограниченную версию: 17 героев из 100, исключались некоторые элементы игровой механики.
Победа – не цель
Искусственный интеллект встречается с профессиональными игроками не из спортивного интереса. В подавляющем большинстве случаев это исследовательские проекты, а матч против человека – лишь мерило готовности искусственного интеллекта. На самом деле разработчикам необязательно обыгрывать профессионалов. Достаточно проверить свои гипотезы, оценить поведение программы, способность учиться и реагировать на экстремальные условия.
Победа важна для коммерческих целей – инвесторов, совета директоров или имиджа бренда. Отчасти Гарри Каспаров был прав, когда говорил, что IBM было важно его «убить».
Разработки, опробованные в матчах с профессиональными игроками, могут использоваться в других сферах. Например, алгоритмы OpenAI, обыгравший профи на The Interntational в формате пять на пять, перенесли на разработку Dactyl – роботизированной пятипалой руки, которая должна максимально реалистично имитировать движения человека. Искусственный интеллект научился профессионально управлять пятью «игроками», чтобы справляться с пятью пальцами на руке.
Добившись успехов в го и StarCraft, DeepMind рассчитывает применить свой искусственный интеллект в сфере здравоохранения, медицине и науке. Уже сейчас разработки DeepMind применяются в Великобритании, где разрабатываются приложения и программное обеспечения для более точного диагностирования.
Покерный бот Libratus «собирали» как софт для переговоров. Его создатели говорят, что в перспективе их разработки будут помогать руководителям больших компаний принимать решения, политикам эффективнее заниматься дипломатией, а полицейским максимально безопасно вести переговоры об освобождении заложников. Для этого они и тестировали свои разработки на игре, в которой есть коэффициент неопределённости.
«Думаю, покер – это своего рода бенчмарк. Там нет однозначности в правилах, которые позволяют сказать, что техника «А» лучше, чем техника «Б». Всё зависит от условий и метода игры», – говорит профессор Туомас Сэндхольм, консультирующий создателей Libratus.
Гарри Каспаров, Ли Седоль и игроки в покер – все они говорили, что играют за человечество, надеясь доказать, что мозг пока сильнее компьютера. Но эксперты, постоянно совершенствующие ИИ, подчёркивают: «Важно быть осторожными. Нельзя создавать ситуации, в которых человек оказывается в прямой конкуренции с машинами».
Статья создана участником Лиги авторов. О том, как она работает и как туда вступить, рассказано в этом материале.