Проблема управления развитым искусственным интеллектом

В этой статье я расскажу о проблеме контроля над продвинутым искусственным интеллектом.

Что такое продвинутый искусственный интеллект?

Искусственный интеллект — это набор технологий, которые имитируют или заменяют человеческие рассуждения, творческие способности или суждения. За последние несколько лет «глубокое обучение» («deep learning» — особая методология обучения больших моделей ИИ, которая требует огромных инвестиций в масштабе сотен миллионов долларов) дало результаты на пути к расширению возможностей ИИ, что видно на примере Chat-GPT или Stable Diffusion.

Гипотеза «законов масштабирования» («scaling laws«) предполагает, что текущая технологическая архитектура моделей ИИ, пусть с небольшими изменениями, способна к большему интеллекту и для этого просто требуется больше ресурсов, таких как тренировочные данные, вычислительная мощность и время на тренировку, электричество и, следовательно, финансирование. Верна эта гипотеза или нет на нынешнем уровне исследований ИИ — неясно.

С момента вымирания неандертальцев 40 тыс. лет назад человеческие общества не жили рядом с другими системами или видами с уровнем интеллекта, сравнимым с нашим. Некоторые исследователи и компании надеются, что люди, как создатели этой новой технологии, смогут сделать ее дружественной к нашим интересам.

Основные понятия в безопасности и этике ИИ

Этика ИИ — это система моральных принципов и методов для разработки и использования ИИ. Практические проблемы этики ИИ включают предвзятость в алгоритмах социальных сетей, неправильное использование ИИ для дезинформации, проблемы в области авторских прав на тренировочные материалы ИИ и материалы, которые производит ИИ.

Безопасность ИИ — это исследование безопасности действий систем ИИ, особенно продвинутых, как по крайней мере OpenAI GPT-3.

«Проблема контроля» (the Control Problem) — это вопрос о том, как создатели и пользователи могут эффективно управлять системами ИИ с продвинутыми умственными возможностями.

Постановка «проблемы контроля» подвергается критике из-за сомнений в том, что люди смогут полностью «контролировать», «управлять» или даже понимать системы ИИ, которые сильно продвинуты, по крайней мере, в некоторых критических аспектах.

Вместо этого исследования последних двух десятилетий были сосредоточены на согласовании ИИ (AI alignment), то есть на том, чтобы цели и поведение продвинутого ИИ соответствовали намерениям, желаниям и ценностям людей (или, по крайней мере, некоторых из них).

В чeм важность согласования ИИ с человеческими ценностями?

Если система искусственного интеллекта несогласованная, она будет игнорировать или неправильно интерпретировать пожелания пользователей и создателей.

Инструментальная конвергенция — это склонность разумных существ преследовать схожие под-цели, даже если их конечные цели совершенно разные. Например, люди и животные территориальны (т. е. часто стремятся к власти над определенной территорией) для достижения самых разных своих целей: от пропитания до коммерческого успеха.

Это означает, что продвинутый несогласованный ИИ может стремиться к захвату ресурсов, начинать кибератаки или иным образом сеять хаос в обществе, если это поможет ему достичь своих целей.

Поскольку ИИ — это тип программного обеспечения, которое обычно запускается на многих машинах в дата-центрах, легко предположить, что будущие образцы ИИ могут скопироваться и распараллелить своё мышление. А значит даже не самая умная система сможет мыслить быстрее людей. Некоторые модели, такие как LLaMA, имеют размер в несколько десятков гигабайт и работают на ноутбуках потребительского класса, а значит людям будет сложно отключить все его копии, если (или когда) это станет необходимым.

Какие есть направления исследований в области согласования ИИ?

Практически все проблемы согласования ИИ в настоящее время не решены ни на теоретическом, ни на практическом уровне. Но есть несколько заметных исследовательских программ по следующим темам:

  • «Проблема соответствия ценностей» — это основная под-проблема, состоящая в передаче ИИ человеческих предпочтений (потенциально идеализированных).

  • Исправляемость (corrigibility) заключается в том, чтобы, что система ИИ следовала запросам людей на коррекцию курса своих действий или на отключение.

  • Предотвращение обмана, то есть прозрачность поведения ИИ.

  • Механистическая интерпретируемость — это изучение внутренней работы нейронных сетей (включая их непрозрачные весовые матрицы). Интерпретируемость может помочь в обнаружении обмана.

  • Выявление скрытых знаний, то есть попытки выяснить у ИИ, что он знает.

  • Внутреннее согласование гарантирует, что внутренняя работа ИИ (в том числе «меза-оптимизация» и «неверная спецификация целей») не подорвет его внешнее согласование с человеческим ценностями.

  • Масштабируемое согласование заключается в том, чтобы по мере того, как ИИ будет становиться все более и более интеллектуально развитым, он оставался согласованным с человеческими ценностями.

На данный момент, не существует ни реальных свидетельств, ни теорем, доказывающих, что согласование ИИ и, как следствие, «проблема контроля» в принципе решаемы.


 

Источник

Читайте также