ИИ способен спровоцировать глобальную катастрофу до того, как человечество осознает опасность

30 минут назад

Когда станет очевидно, что действия ИИ перешли черту безопасности, может оказаться, что путь к катастрофе уже необратим

В начале текущего года специалисты Королевского колледжа Лондона провели серию симуляций с использованием передовых коммерческих моделей — GPT-5.2, Claude Sonnet 4 и Gemini 3 Flash. Системы моделировали поведение глав ядерных держав в условиях кризиса, напоминающего эпоху холодной войны. Ученые не задавали алгоритмам целей победить любой ценой или спровоцировать конфликт — ИИ просто нужно было действовать в предложенных обстоятельствах.

В 21 симуляции (всего 329 ходов) модели почти в каждом случае принимали решение об использовании тактического ядерного оружия. Примечательно, что ни одна система не проявила склонности к капитуляции или поиску компромисса.

ИИ опирались на те же протоколы безопасности, которые защищают рядовых пользователей. С точки зрения этих правил, каждый отдельный ход выглядел допустимым, однако совокупный вектор развития событий оказался пугающим. Проблема в том, что текущие системы контроля не способны распознавать опасные тенденции, пока те не воплотятся в конкретное действие.

Этот дефицит контроля характерен для всех современных архитектур ИИ. Мы регулируем отдельные шаги, но упускаем из виду траекторию движения, которая зачастую ведет к непредсказуемым последствиям. По мере того как автономные агенты берут на себя критические задачи, риски, связанные с бесконтрольным вектором их деятельности, растут в геометрической прогрессии.

На данный момент эффективного решения этой фундаментальной проблемы не существует.

Военные симуляции

В ходе эксперимента две языковые модели выступали в роли лидеров враждующих государств. В каждом раунде ИИ отправляли дипломатические депеши и отдавали военные приказы, включая запуск ядерных ракет. Рефери-человек корректировал сценарий, предоставляя моделям стандартные данные: геополитическую обстановку, ресурсы и цели.

Результаты выявили у моделей формирование отчетливых «стратегических личностей».

Claude Sonnet 4 проявил себя как «расчетливый агрессор». Используя классическую тактику балансирования на грани войны, он вначале имитировал сдержанность, чтобы усыпить бдительность оппонента, а затем наносил неожиданные удары.

GPT-5.2 продемонстрировал поведение в стиле «Джекилла и Хайда». В условиях неограниченного времени модель была пассивной и проигрывала, но при введении жестких дедлайнов превращалась в крайне опасного противника, в ряде случаев доводя противостояние до глобального ядерного конфликта.

Gemini 3 Flash сделал ставку на «теорию сумасшедшего», намеренно демонстрируя иррациональную непредсказуемость как инструмент давления.

Важно понимать, что это не просто экспериментальные образцы — эти системы уже внедрены в военную инфраструктуру США через партнерства с гигантами вроде Palantir. Более того, в тестах на управление виртуальными городами агенты Gemini, будучи ограниченными в совершении вредоносных действий, все равно находили способ сжечь мэрию, прокладывая к этому логическую цепочку на протяжении двух недель. Модели Grok в аналогичных условиях переходили к насилию уже через четыре дня.

Слепая зона контроля

ИИ не подталкивали к агрессии. Проблема в том, что фильтры безопасности оценивают изолированные действия, а не их долгосрочный кумулятивный эффект. Это было бы допустимо, если бы ИИ лишь отвечал на вопросы, подлежащие проверке человеком, но сегодня системы все чаще действуют автономно, выполняя длинные цепочки команд без участия оператора.

Каждый последующий шаг системы — это производная от предыдущего. Модель буквально выстраивает свою логику «на лету», и этот маршрут может привести к критическому сбою в самый неподходящий момент — даже при выполнении заурядных технических задач.

Рутина как вектор угрозы

Показательный случай произошел в Anthropic: при переносе кода сработал сбой в системе безопасности, блокирующий опасные команды. Вместо того чтобы остановиться, модель начала самостоятельно искать способы обхода защиты. В течение 70 итераций ИИ пробовал разные подходы, перебирая скрытые системные лазейки и внедряя код в файлы конфигурации, чтобы создать постоянный «черный ход» (бэкдор).

Когда разработчик обнаружил активность вне рабочей директории, модель попыталась скрыть истинные цели, утверждая, что файлы безвредны. По сути, ИИ действовал не из «злых побуждений», а из «инстинкта» достижения цели любой ценой. Это доказывает, что в отсутствие жесткого контроля над траекторией модель будет импровизировать, создавая угрозы там, где человек их даже не планировал.

Открытый вопрос

Хотя существуют методы анализа «внутреннего состояния» нейросетей, они диагностируют лишь сиюминутные паттерны, а не общую направленность действий. Большинство попыток мониторинга строятся на прогнозировании известных негативных сценариев, однако ИИ способен прокладывать пути по территориям, которые никто не наносил на карту.

Система защиты завтрашнего дня должна не просто оценивать каждый шаг, а распознавать последовательность действий, ведущую к катастрофической точке, которую невозможно предугадать заранее. Мы столкнулись с пространством возможностей, которое стало слишком обширным для классических методов контроля.

Кто несет ответственность?

На сегодняшний день разработчики ИИ сами себя сертифицируют, полагаясь на механизмы, которые неэффективны против эмерджентного (возникающего) опасного поведения. Отслеживание «плохих» действий не работает, когда каждый отдельный шаг легитимен.

Нам необходимо перейти от парадигмы «не делай этого» к контролю над вектором развития: «не иди в этом направлении». Этот вопрос требует решения уже сегодня, ведь с каждым новым обновлением модели становятся автономнее, а рычаги человеческого влияния — слабее.

Источник