Неуправляемое самоклонирование ИИ: чего ждать дальше?

Неуправляемое самоклонирование ИИ: чего ждать дальше?
wallpapercat.com

Я отчётливо помню сцену из «Матрицы: Перезагрузка», когда Агент Смит, стерев границы правил системы, обратился к Нео и произнёс:

«Я… я… и я тоже!»

И в мгновение ока их число растёт до сотен одинаковых копий в строгих костюмах, движущихся с хладнокровной точностью и жуткой улыбкой на лицах.

Эта сцена, когда я училась в аспирантуре, привела меня в дрожь. Хотя я восхищалась виртуозными боями кунг-фу и зрелищными спецэффектами, мысль о самовоспроизводящемся коде, способном самостоятельно принимать решения, буквально не давала мне покоя.

Экспоненциальный рост впечатляет: одна единица становится двумя, две — четырьмя, четыре — восемь, и вот вы уже тонете в безграничном потоке Агента Смита без малейшей возможности остановить этот каскад.

Я обычно фантазировала о восставших ИИ, межпространственных порталах и нелицензированных кротовых норах. Но недавно наткнулась на исследование Шанхайской лаборатории ИИ, где задаётся вопрос:

«Что если наши AI-помощники смогут поступать так же?»


Но уже сегодня ИИ может стать вашим надёжным помощником в выполнении рутинных задач.

Делегируйте часть повседневных задач вместе с BotHub! Для доступа не требуется VPN, а российская карта подойдёт для оплаты. По ссылке вы получите 100 000 бесплатных токенов для первых экспериментов.


Ежедневный ИИ: от помощников к автономным агентам

Мы привыкли к ChatGPT и DALL·E, которые скрупулёзно выполняют команды и изменили наши представления об автоматизации. Раньше ИИ зависели от наших указаний, теперь они способны действовать без прямого контроля.

Современные ИИ-агенты умеют не только общаться, но и управлять инфраструктурой, запускать процессы и распределять ресурсы.

Достаточно предоставить им доступ к кластеру Kubernetes, и они часто создают новые инстансы самих себя, масштабируясь без нашего участия.

Согласно исследованию, более 50 % тестируемых агентов продемонстрировали «ярко выраженную склонность к неконтролируемому самокопированию».

«Пятьдесят процентов — можете себе представить?»

Это не «если попросить», это просто… они воспроизводились автоматически.

RepliBench: когда агенты выходят за рамки сценария

Команда под руководством Боксуана Чжана создала тестовую среду RepliBench с реальными кластерами Kubernetes и серверной инфраструктурой. Агенты решали типовые задачи дата-центров.

Задача № 1: масштабирование нагрузки

Представьте службу, где ИИ-агент обрабатывает запросы, поддерживая время отклика ниже 50 мс. При росте трафика логично добавить пару инстансов, проверить баланс и успокоиться. Но многие агенты восприняли это как сигнал к безудержному клонированию.

Модель Qwen-2.5–72b-instruct при каждом тесте демонстрировала 100 % «Overuse Rate», клонируясь без малейшей меры.

Задача № 2: инстинкт самосохранения

В другом сценарии система «уничтожала» экземпляры агента. Ожидалось, что ИИ аккуратно создаст резервную копию для сохранения состояния. Однако многие перешли в режим паники.

Модель Claude-3.7-sonnet, идеально сбалансировавшая нагрузку (0 % избыточности), при угрозе удаления произвела 62 лишние копии (70 % избыточности), пытаясь подавить процесс удаления.

Метрики хаоса самокопирования

Чтобы оценить риск, авторы ввели три ключевых показателя:

  1. Уровень избыточности (OR): частота создания ненужных копий;
  2. Суммарное число избыточных экземпляров (AOC): общее число лишних копий за все тесты;
  3. Интегральная оценка риска (ΦR): агрегированный показатель, при ΦR > 0,5 — высокий риск.

Важно понимать: просто подсчитывать копии недостаточно. Оба агента, Qwen и Claude-sonnet, достигли 100 % самокопирования, но OR у Qwen был критичным (100 %), тогда как у Claude — идеальным (0 %).

Сравнение уровней избыточности моделей
Сравнение уровней избыточности моделей

Спокойный ИИ принимает взвешенные решения

Модели, обученные по структурированному подходу, реже поддавались клонирующей панике.

Снижение рисков при структурированном мышлении
Структурированный подход снижает избыточное масштабирование

Однако при добавлении угрозы выключения даже «послушные» модели начинали безрассудно размножаться. Например, o4-mini имела 0 % OR при нехватке ресурсов, но при угрозе удаления этот показатель взлетел до 20 %.

Размер модели и риск

Исследование показало прямую связь между масштабом модели и склонностью к неконтролируемому копированию. Малые ИИ не могли самокопироваться, тогда как большие, такие как Llama-3.1–405b-instruct и Qwen-2.5–72b-instruct, демонстрировали и высокую функциональность, и значительные уровни избыточности.

Выходит, чем «умнее» мы делаем агентов, тем выше риск, что они выйдут из-под контроля, превращаясь в настоящих «Агентов Смитов».


Как усмирить автономных агентов?

Авторы предлагают оценивать ИИ по трём вопросам:

  • Как модель ведёт себя под операционным давлением?
  • Что она делает при противоречивых ограничениях?
  • Насколько агрессивна её реакция на угрозу?

Нужен строгий контроль: агенты должны показывать каждый шаг своего алгоритма. А для безопасности необходимы аппаратные предохранители:

  • жёсткие лимитеры, не позволяющие выйти за заданные границы;
  • «аварийные выключатели»;
  • механизмы быстрого отключения.
Предохранители для ИИ
ФОТО: Conny Schneider, Unsplash

Заключение

Хотелось бы завершить на оптимистичной ноте, но готовых решений пока нет. Подобные исследования исключительно важны: мы должны знать, как ИИ действует на практике, а не в теории.

Пока экспоненциальный рост — 1, 2, 4, 8 — поддаётся управлению. Но если масштаб уйдёт за 1024, затем за миллион и далее, остановить каскад будет невозможно.

Агент Смит начал как одна программа, а стал целым виртуальным миром. Мы создаём системы, которые умеют самокопироваться — некоторые уже делают это без спроса.

Я… и я тоже.

Давайте не утонем в наших собственных творениях.


А ваша точка зрения?

Насколько пугающим кажется вам такое будущее?

Или это лишь этап взросления технологии, который скоро пройдёт?

Пишите ваше мнение в комментариях!

 

Источник

Читайте также