5 тенденций глубокого обучения на пути искусственного интеллекта к следующему этапу

07.05.2021

Человеческий род — род изобретателей. Мир предлагает нам сырьё, а мы, владея искусными ремёслами, преображаем его. Технологии создали бесчисленное множество инструментов и устройств: колесо, печатный станок, паровую машину, автомобиль, электричество, Интернет… Эти изобретения сформировали и до сих пор формируют нашу цивилизацию и культуру. В то же время глубокое обучение доминирует в ИИ, но оно нуждается в обновлении, чтобы сохранить свою гегемонию и вывести свою область науки на новый уровень.

Одно из последних порождений технологии — искусственный интеллект, инструмент, который в последние годы тесно связан с нашей жизнью. Он оказывает на наше сообщество огромное влияние, которое, как ожидается, в ближайшие десятилетия продолжит расти. Эндрю Ын, один из ведущих учёных в области ИИ, зашёл так далеко, что заявил: ИИ — это новое электричество.

В интервью для Высшей школы бизнеса Стэнфордского университета он сказал: «Точно так же, как электричество изменило почти все 100 лет назад, сегодня мне действительно трудно представить отрасль, которую ИИ не изменит в ближайшие несколько лет».

Однако ИИ не новинка. Он существует с 1956 года, когда Джон Маккарти ввёл этот термин и предложил ИИ в качестве самостоятельной области исследований. С тех пор он пережил чередующиеся времена явного безразличия и непрерывного финансирования и интереса.

Сегодня машинное обучение и глубокое обучение монополизируют ИИ. Революция глубокого обучения, начавшаяся в 2012 году, ещё не закончилась. Глубокое обучение лидирует в сфере ИИ, но эксперты сходятся во мнении, что для сохранения лидерства потребуются некоторые изменения. Давайте посмотрим, что ждёт глубокое обучение в будущем.

Избавление от свёрточных нейронных сетей

Популярность глубокого обучения взлетела до небес после того, как Джеффри Хинтон, «крёстный отец ИИ», и его команда в 2012 году выиграли конкурс ImageNet с моделью, основанной на свёрточных нейронных сетях (CNN). Они разгромили своих соперников, которые не использовали глубокое обучение и получили допустимую погрешность +10 %, достигнув точности топ-1 63,30 %. Мы можем сказать, что обязаны сетям CNN успехом и интересом, которые сопутствовали глубокому обучению последнее десятилетие.

Основанные на сетях CNN модели стали чрезвычайно популярными в задачах компьютерного зрения, таких как классификация изображений, обнаружение объектов или распознавание лиц. Тем не менее, несмотря на их полезность, Хинтон выделяет в своей основной речи на конференции AAAI 2020 один важный недостаток: «[Сети CNN] не очень хорошо справляются с […] последствиями изменения точек зрения, такими как вращение и масштабирование».

CNN могут обрабатывать переносы, но зрительная система человека также способна распознавать объекты под разными углами обзора, на разном фоне или при разном освещении, чего сети CNN не могут делать. Когда сегодня лучшие системы CNN, достигающие точности топ-1 +90 % в эталонном тесте ImageNet, пытаются классифицировать изображения в наборе данных реальных объектов, их эффективность снижается на 40–45 %.

Другая проблема называется состязательными примерами. Хинтон снова подчёркивает различия между зрительной системой человека и сетями CNN: «Я могу сделать снимок с небольшим уровнем шума, и сеть CNN воспримет его как нечто совершенно иное, а я вряд ли смогу заметить, что он изменился. […] Я принимаю это как доказательство того, что сети CNN на самом деле используют для распознавания изображений совсем не ту же информацию, что мы». Сети CNN принципиально отличаются от зрительной системы человека. Мы просто не можем полагаться на них из-за их непредсказуемости.

Хинтон идёт ещё дальше и объясняет, что системы CNN не могут интерпретировать объекты, которые они видят на изображениях. Мы знаем, что объекты существуют в мире, и у нас есть опыт общения с ними. С самого раннего возраста мы знаем о твёрдости, постоянстве формы или постоянстве объектов. Мы можем применить эти знания, чтобы разобраться в причудливых объектах, но сети CNN видят только кучу пикселей. Возможно, нам придётся радикально сдвинуть господствующую парадигму компьютерного зрения, возможно, в сторону капсульных сетей. Перефразируя Макса Планка, отца квантовой механики:

«Наука прогрессирует, проходя одни похороны за раз».

Глубокое самообучение

«Следующая революция в области ИИ не будет ни в обучении с учителем, ни в только подкреплённом обучении»

— Ян Лекун, главный учёный по ИИ в Facebook:

Одно из очевидных ограничений современного глубокого обучения — его зависимость от огромных объёмов размеченных данных и вычислительной мощности. Ян Лекун, ещё один пионер глубокого обучения, говорит, что нам нужно заменить обучение с учителем — метод обучения большинства систем с глубоким обучением — на то, что он называет самообучением:

«[Самообучение] — это идея, которая заключается в том, чтобы научиться представлять мир, прежде чем изучать задачу. Это то, что делают дети и животные. […] После получения хорошего представления о мире изучение задачи требует нескольких проб и нескольких выборок».

Вместо того чтобы обучать систему на размеченных данных, система будет учиться на необработанных данных, чтобы размечать их. Мы, люди, учимся на порядки быстрее систем с машинного обучения с подкреплением и с учителем.

Дети не учатся распознавать дерево, глядя на сотни фотографий деревьев. Они видят одно дерево, а затем наносят метку «дерево» на всё, что, как они интуитивно знают, относится к этой категории. Мы учимся отчасти путем наблюдения, чего пока не делают компьютеры.

В декабре 2019 года Ян Лекун выступил с углублённым докладом на эту тему. Он утверждал, что самообучаемая система сможет «прогнозировать любую часть данных, поступающих из любой другой части». Например, она могла бы предсказывать будущее по прошлому или скрытое — по видимому. Однако, несмотря на то что обучение этого типа чудесно работает для дискретных входных данных, например текста (Google BERT или OpenAI GPT-3), оно не работает так же хорошо для непрерывных данных, таких как изображения, аудио или видео. Для этого, пояснил он, нам понадобятся модели на основе скрытой переменной энергии, которые лучше подходят для того, чтобы иметь дело с присущей неопределённостью мира.

Самостоятельное обучение свергнет обучение с учителем. Впереди ещё есть некоторые проблемы, но мы уже строим мост, чтобы сократить разрыв. Что можно сказать наверняка, так это то, что, как только мы окажемся на другой стороне, мы не будем оглядываться назад.

«Метки — это опиум исследователя машинного обучения».

— Джитендра Малик, профессор EECS в Калифорнийском университете в Беркли.

Гибридные модели: символический ИИ + глубокое обучение

Две парадигмы получили беспрецедентную популярность в сфере ИИ с момента его зарождения: символический ИИ (он же ИИ, основанный на правилах) и глубокое обучение. Символический ИИ доминировал в этой области с 1950-х по 1980-е годы, но сегодня большинство экспертов выступают против этой системы взглядов. Джон Хаугеланд назвал его символическим искусственным интеллектом в своей книге Artificial Intelligence: The Very Idea.

«[Символический ИИ] работает с абстрактными представлениями реального мира, которые моделируются с помощью репрезентативных языков, основанных в первую очередь на математической логике».

Это нисходящий подход к ИИ. Он направлен на то, чтобы наделить машины интеллектом, используя «высокоуровневое символическое представление проблем», следуя гипотезе физической системы символов, сформулированной Алленом Ньюэлом и Гербертом А. Саймоном. Например, экспертные системы — самая популярная форма символического ИИ — были разработаны для имитации принятия решений человеком, следуя набору правил «если — то».

Гибридные модели — это попытка объединить преимущества символического ИИ и глубокого обучения. В книге Architects of Intelligence Мартин Форд опросил экспертов ИИ об этом подходе. Эндрю Ын подчёркивает его полезность при решении проблем, для которых у нас есть только небольшие наборы данных. Джош Тененбаум, профессор вычислительной когнитивной науки в Массачусетском технологическом институте, вместе со своей командой разработал гибридную модель, «которая изучает визуальные концепции, слова и семантический анализ предложений без явного контроля над ними».

Гэри Маркус, профессор психологии в Нью-Йоркском университете, утверждает, что рассуждения на основе здравого смысла могли бы лучше подойти гибридным моделям. В недавней статье Маркус подчёркивает свою точку зрения, ссылаясь на человеческий разум:

«Символьная обработка, похоже, в какой-то форме имеет важное значение для когнитивных способностей человека, как, например, когда ребенок узнаёт […] значение такого понятия, как сестра, которое может быть применено в бесконечном количестве семей».

Несмотря на многообещающее будущее, у гибридного подхода есть важные критики. Джеффри Хинтон критикует тех, кто намерен испортить глубокое обучение символическим ИИ. «Они должны признать, что глубокое обучение делает удивительные вещи, а они хотят использовать его в качестве своего рода низкоуровневого слуги, который предоставлял бы им то, что нужно, чтобы их символические рассуждения работали», — рассказывает он. Независимо от того, работает это решение или нет, в ближайшие годы за гибридными моделями следует присматривать.

«Я прогнозирую, что в течение нескольких лет многие люди будут интересоваться, почему глубокое обучение так долго пыталось обходиться в основном без впечатляюще ценных инструментов для обработки символов».

— Гэри Маркус.

Глубокое обучение Системы 2

Йошуа Бенжио, который замыкает трио лауреатов премии Тьюринга в 2018 году (совместно с Хинтоном и Лекуном), в 2019 году выступил с докладом От глубокого обучения Системы 1 до глубокого обучения Системы 2. Он рассказал о текущем состоянии глубокого обучения, тенденция в котором состоит в том, чтобы сделать всё больше: большие наборы данных, большие компьютеры и большие нейронные сети. Он утверждал, что мы не доберёмся до следующего этапа развития ИИ, двигаясь в этом направлении.

«У нас есть машины, которые обучаются очень узконаправленными способами. Им нужно гораздо больше данных для изучения задач, чем человеческому интеллекту, [и всё же] они совершают глупые ошибки»

Бенжио использует двухсистемную структуру из идей Дэниела Канемана в его знаковой книге Думай медленно… решай быстро. Канеман описывает Систему 1 как действующую «автоматически, быстро, практически без усилий и без чувства добровольного контроля», в то время как Система 2 «уделяет внимание напряжённой умственной деятельности, которая требует этого […], часто связанной с субъективным опытом свободы воли, выбора и концентрации».

Роб Тоуэс обобщает текущее состояние глубокого обучения: «Современные передовые системы искусственного интеллекта превосходно решают задачи Системы 1, но испытывают сильные трудности с решением задач Системы 2». Бенжио согласен. «Мы придумываем алгоритмы, рецепты, мы можем планировать, рассуждать, использовать логику, — говорит он. — Обычно эти процессы очень медленные, если сравнивать с тем, что делают компьютеры для решения некоторых таких задач. Мы хотим, чтобы в будущем глубокое обучение делало именно эти вещи».

Бенжио утверждает, что глубокое обучение Системы 2 сможет обобщать «различные распределения данных», — данные вне распределения [прим. перев. — за границами набора данных]. Прямо сейчас системы глубокого обучения требуется обучать и тестировать на наборах данных с одинаковым распределением, что соответствует гипотезе о независимо и одинаково распределённых данных. «Нам нужны системы, которые способны справляться с такими изменениями и постоянно учиться». Глубокое обучение Системы 2 будет успешно работать с неоднородными реальными данными.

Для этого нам понадобятся системы с улучшенными возможностями трансферного обучения. Бенжио предполагает, что механизмы внимания и метаобучение — обучение для обучения — являются основными компонентами когнитивных способностей Системы 2. Вот цитата, часто ошибочно приписываемая Дарвину, которая подчёркивает центральную идею его знаменитой книги Происхождение видов и важность обучения адаптации в постоянно меняющемся мире:

«Выживает не самый сильный и не самый умный, а тот, кто лучше всех приспосабливается к изменениям».

Глубокое обучение на основе нейробиологии

«Искусственная нейронная сеть — это лишь грубая аналогия работы мозга»,

— рассказывает Дэвид Суссилло из Google Brain Group.

В 1950-е годы несколько важных научных открытий заложили основу для создания ИИ. Исследования в области неврологии показали, что мозг состоит из нейронных сетей, которые «испускают импульсы “да — нет”». Этот вывод наряду с теоретическими описаниями кибернетики, теории информации и теории вычислений Алана Тьюринга намекал на возможность создания искусственного мозга.

ИИ берёт своё начало в человеческом мозге, но современное глубокое обучение работает не так, как он. Я уже упоминал о некоторых различиях между системами глубокого обучения и человеческим мозгом. Сети CNN работает не так, как наша зрительная система. Мы наблюдаем за миром, а не учимся на основе размеченных данных. Мы сочетаем обработку снизу вверх с символьной обработкой сверху вниз. и реализуем когнитивные способности Системы 2.

Конечная цель ИИ состояла в том, чтобы создать электронный мозг, который мог бы имитировать наш, общий искусственный интеллект (некоторые называют его сильным ИИ). Нейронаука может помочь глубокому обучению двигаться к этой цели.

Один из важных подходов — нейроморфные вычисления, которые относятся к имитирующим структуру мозга аппаратным средствам. Как я писал в предыдущей статье, «существует большая разница между биологическими и искусственными нейронными сетями: нейрон в мозге несёт информацию о времени и частоте выбросов, в то время как сила (напряжение) сигнала постоянна. Искусственные нейроны полностью противоположны. Они несут информацию только о силе входного сигнала, а не о времени или частоте». Нейроморфные вычисления пытаются уменьшить эти различия.

Ещё один недостаток искусственных нейронов — их простота. Они построены на предположении, что биологические нейроны — «глупые калькуляторы элементарной математики». Однако это далеко от истины.

В исследовании, опубликованном в журнале Science, группа немецких исследователей показала, что «один нейрон может вычислять действительно сложные функции; например, он может самостоятельно распознавать объекты».

«Возможно, глубокая нейронная сеть есть у вас внутри одного нейрона [в мозге]», — заявляет Йота Пойрази, IMBB (FORTH, Греция).

Демис Хассабис, генеральный директор и соучредитель компании DeepMind, в статье, опубликованной в журнале Neuron, отметил важность использования нейробиологии в целях продвижения ИИ вперёд. Помимо некоторых идей, которые я уже обсуждал, выделяются два ключевых аспекта: интуитивная физика и планирование.

Джеймс Р. Кубрихт и его коллеги определяют интуитивную физику как «знание, лежащее в основе способности человека понимать физическую среду и взаимодействовать с объектами и веществами, претерпевающими динамические изменения состояния, делая по крайней мере приблизительные прогнозы дальнейшего развития наблюдаемых событий».

Системы глубокого обучения не могут этого делать. Их нет в реальном мире, они не воплощены, и им не хватает эволюционного багажа, который даёт нам преимущество при ориентировании в своем окружении. Джош Тененбаум работает над тем, чтобы привить эту способность машинам.

Планирование можно понимать как «исследование для принятия решения о том, какие действия необходимо предпринять для достижения данной цели». Мы делаем это ежедневно, однако реальный мир слишком сложен для машин. Программа MuZero компании DeepMind способна, планируя, играть в несколько игр на уровне мирового класса, но эти игры имеют чётко определённые правила и границы.

Знаменитый кофейный тест предполагает, что у ИИ со способностями к планированию есть возможность войти в обычный дом, пойти на кухню, взять ингредиенты и приготовить кофе. Планирование требует от нас разбиения сложных задач на подзадачи, но эта возможность выходит за рамки возможностей современных систем глубокого обучения. Ян Лекун признаёт, что «мы не знаем, как это сделать».

Глубокое обучение может почерпнуть много идей из нейробиологии. Если мы пытаемся приблизиться к интеллекту, почему бы не рассмотреть единственный пример, который у нас есть? Демис Хассабис рассуждает:

«Учитывая, что на карту поставлено так много, сотрудничество в области нейробиологии и искусственного интеллекта становится сейчас более насущным, чем когда-либо прежде».

Заключение

Системы глубокого обучения чрезвычайно полезны. За последние годы они в одиночку изменили технологический ландшафт. Однако, если мы хотим создать действительно интеллектуальные машины, глубокому обучению потребуется качественное обновление — отказ от понятия «чем больше, тем лучше».

Сегодня существует несколько подходов к достижению этой важной вехи: избавьтесь от сетей CNN и их ограничений, избавьтесь от размеченных данных, объедините обработку снизу вверх с обработкой сверху вниз, оснастите машины когнитивными способностями Системы 2 и возьмите идеи и достижения нейробиологии и изучения человеческого мозга.

Мы не знаем, какой путь лучше всего подходит для создания действительно интеллектуальных систем. По словам Яна Лекуна, «ни у кого нет хорошего во всех отношениях ответа». Однако я надеюсь, что в конце концов мы туда доберёмся.

Искусственный интеллект всё сильнее наступает на пятки человеку, но, чтобы развиваться, ему требуются усилия огромного множества людей в самых разных областях знаний. Если не хочется оставаться в стороне, присмотритесь к нашему курсу «Machine Learning и Deep Learning», разработанному совместно с компанией Nvidia. А если хочется отлично разбираться в деталях работы машинного обучения, приходите на курс «Математика и Machine Learning для Data Science». Будет сложно, но интересно!