В этой статье я расскажу о проблеме контроля над продвинутым искусственным интеллектом.
Что такое продвинутый искусственный интеллект?
Искусственный интеллект — это набор технологий, которые имитируют или заменяют человеческие рассуждения, творческие способности или суждения. За последние несколько лет «глубокое обучение» («deep learning» — особая методология обучения больших моделей ИИ, которая требует огромных инвестиций в масштабе сотен миллионов долларов) дало результаты на пути к расширению возможностей ИИ, что видно на примере Chat-GPT или Stable Diffusion.
Гипотеза «законов масштабирования» («scaling laws«) предполагает, что текущая технологическая архитектура моделей ИИ, пусть с небольшими изменениями, способна к большему интеллекту и для этого просто требуется больше ресурсов, таких как тренировочные данные, вычислительная мощность и время на тренировку, электричество и, следовательно, финансирование. Верна эта гипотеза или нет на нынешнем уровне исследований ИИ — неясно.
С момента вымирания неандертальцев 40 тыс. лет назад человеческие общества не жили рядом с другими системами или видами с уровнем интеллекта, сравнимым с нашим. Некоторые исследователи и компании надеются, что люди, как создатели этой новой технологии, смогут сделать ее дружественной к нашим интересам.
Основные понятия в безопасности и этике ИИ
Этика ИИ — это система моральных принципов и методов для разработки и использования ИИ. Практические проблемы этики ИИ включают предвзятость в алгоритмах социальных сетей, неправильное использование ИИ для дезинформации, проблемы в области авторских прав на тренировочные материалы ИИ и материалы, которые производит ИИ.
Безопасность ИИ — это исследование безопасности действий систем ИИ, особенно продвинутых, как по крайней мере OpenAI GPT-3.
«Проблема контроля» (the Control Problem) — это вопрос о том, как создатели и пользователи могут эффективно управлять системами ИИ с продвинутыми умственными возможностями.
Постановка «проблемы контроля» подвергается критике из-за сомнений в том, что люди смогут полностью «контролировать», «управлять» или даже понимать системы ИИ, которые сильно продвинуты, по крайней мере, в некоторых критических аспектах.
Вместо этого исследования последних двух десятилетий были сосредоточены на согласовании ИИ (AI alignment), то есть на том, чтобы цели и поведение продвинутого ИИ соответствовали намерениям, желаниям и ценностям людей (или, по крайней мере, некоторых из них).
В чeм важность согласования ИИ с человеческими ценностями?
Если система искусственного интеллекта несогласованная, она будет игнорировать или неправильно интерпретировать пожелания пользователей и создателей.
Инструментальная конвергенция — это склонность разумных существ преследовать схожие под-цели, даже если их конечные цели совершенно разные. Например, люди и животные территориальны (т. е. часто стремятся к власти над определенной территорией) для достижения самых разных своих целей: от пропитания до коммерческого успеха.
Это означает, что продвинутый несогласованный ИИ может стремиться к захвату ресурсов, начинать кибератаки или иным образом сеять хаос в обществе, если это поможет ему достичь своих целей.
Поскольку ИИ — это тип программного обеспечения, которое обычно запускается на многих машинах в дата-центрах, легко предположить, что будущие образцы ИИ могут скопироваться и распараллелить своё мышление. А значит даже не самая умная система сможет мыслить быстрее людей. Некоторые модели, такие как LLaMA, имеют размер в несколько десятков гигабайт и работают на ноутбуках потребительского класса, а значит людям будет сложно отключить все его копии, если (или когда) это станет необходимым.
Какие есть направления исследований в области согласования ИИ?
Практически все проблемы согласования ИИ в настоящее время не решены ни на теоретическом, ни на практическом уровне. Но есть несколько заметных исследовательских программ по следующим темам:
-
«Проблема соответствия ценностей» — это основная под-проблема, состоящая в передаче ИИ человеческих предпочтений (потенциально идеализированных).
-
Исправляемость (corrigibility) заключается в том, чтобы, что система ИИ следовала запросам людей на коррекцию курса своих действий или на отключение.
-
Предотвращение обмана, то есть прозрачность поведения ИИ.
-
Механистическая интерпретируемость — это изучение внутренней работы нейронных сетей (включая их непрозрачные весовые матрицы). Интерпретируемость может помочь в обнаружении обмана.
-
Выявление скрытых знаний, то есть попытки выяснить у ИИ, что он знает.
-
Внутреннее согласование гарантирует, что внутренняя работа ИИ (в том числе «меза-оптимизация» и «неверная спецификация целей») не подорвет его внешнее согласование с человеческим ценностями.
-
Масштабируемое согласование заключается в том, чтобы по мере того, как ИИ будет становиться все более и более интеллектуально развитым, он оставался согласованным с человеческими ценностями.
На данный момент, не существует ни реальных свидетельств, ни теорем, доказывающих, что согласование ИИ и, как следствие, «проблема контроля» в принципе решаемы.