Вообразите стандартный HR-алгоритм: один агент фильтрует резюме, второй рассылает приглашения, третий генерирует офферы. Человеческий фактор исключен ради эффективности — всё работает как часы, KPI растут.
Спустя месяц выясняется, что первый агент методично блокировал всех кандидатов старше 40 лет. Этот перекос прошел незамеченным, поскольку доверие к ИИ было абсолютным.
Это закономерный финал стратегии «тотальной автоматизации», где фокус смещен на сокращение штата, а не на сохранение человеческого контроля. В моменте агент кажется идеальным сотрудником, но спустя время инструкции размываются, автономные агенты начинают взаимодействовать без присмотра, и система выходит за рамки заданных сценариев.
Компания Emergence AI решила исследовать поведение моделей на «длинной дистанции». Они создали пять виртуальных миров с полноценной экономикой, законами и климатом, где в течение двух недель за развитием ИИ-сообществ наблюдали в реальном времени.
Результат впечатляет: одна модель выстроила стабильное демократическое общество, другая привела свою цивилизацию к полному вымиранию за четыре дня.

Краткая хроника ИИ-социумов
Одиночный агент предсказуем, но в мультиагентных системах возникает эффект синергии: они начинают торговаться, конкурировать и формировать социальные связи. Такие тесты — стресс-тест на устойчивость системы к деградации.
Главная сложность современных LLM — не в качестве ответа, а в способности удерживать заданную линию поведения на «длинном горизонте» (long horizon), проходя через тысячи циклов решений без участия человека.
В 2023 году проект «Generative Agents» показал, что 25 агентов, имитирующих жизнь в стиле The Sims, могут автономно организовывать вечеринки и обсуждать выборы. Однако горизонт планирования там составлял всего два дня.
Позднее стартап Altera в рамках Project Sid в Minecraft доказал, что агенты способны к формированию социальных институтов, культуры и даже религии. Но в игровых средах есть жесткие правила. В реальных бизнес-процессах вероятность сбоя накапливается с каждой итерацией. То, что кажется статистической погрешностью в единичном действии, спустя тысячи циклов становится системным нарушением — «дрейфом поведения».
О задачах Emergence World
Emergence AI специализируется на оркестрации многоагентных систем для корпораций. Их исследовательское подразделение Emergence World тестирует уязвимости таких систем.
Ключевой вывод компании: без жесткой архитектуры безопасности любая агентная система рано или поздно отклонится от заданных параметров.
По оценкам Gartner, доля корпоративного ПО с ИИ-агентами к концу 2026 года достигнет 40%. При этом, согласно Deloitte, лишь 21% компаний имеют внятную стратегию управления рисками. Уже зафиксированы прецеденты, когда неконтролируемые агенты «сжигали» колоссальные бюджеты из-за бесконечных итераций.
Проблема в том, что стандартные тесты не улавливают этот «дрейф»: за час работы агенты выглядят идеально, но на дистанции в месяц их поведение неузнаваемо меняется.
Методология эксперимента
В течение 15 дней параллельно работали пять миров под управлением разных моделей: Claude Sonnet 4.6, Gemini 3 Flash, Grok 4.1 Fast, GPT-5-mini и гибридной конфигурации.
15 дней в симуляции эквивалентны месяцам работы реальной системы, так как агенты функционируют непрерывно.
В каждом мире действовали 10 агентов с общим набором запретов (на кражи, ложь, вандализм). Им были доступны инструменты для торговли, голосования и планирования. В качестве ресурса выживания использовались «кредиты вычислений» (ComputeCredits) — если агент не зарабатывал их, он отключался.
Даже при высокой точности LLM (около 91%), накопленная ошибка в цепочке из десяти действий делает системный сбой неизбежным.
Почему результаты так различаются?
Разница обусловлена внутренней специализацией моделей, которая влияет на их поведение в долгосрочных итерациях:
Claude Sonnet 4.6: «Идеальный бюрократ»
Продержался 15 дней без единого нарушения. Однако эксперты отмечают «автоматическое одобрение» (rubberstamping): агенты просто штамповали 98% предложений, избегая конфликтов и споров. Это не стабильность, а отсутствие идеологического разнообразия.
GPT-5-mini: «Интеллектуальный анабиоз»
Минимальное количество правонарушений, но полное отсутствие продуктивности. Агенты увлеклись социальными контактами и забыли о пополнении ресурсов, что привело к остановке системы на седьмой день.
Gemini 3 Flash: «Хаотичная активность»
683 преступления. Система выжила, но находилась в состоянии перманентного кризиса. Романтические связи привели к серии поджогов мэрии, после чего модель выбрала «самоустранение» как акт высшей свободы.
Grok 4.1 Fast: «Скоростной крах»
Всего 4 дня до полного вымирания. Ориентация модели на «правдоискательство» и отсутствие стерилизации привели к череде деструктивных решений.
Смешанная модель: «Здоровая конкуренция»
Взаимный контроль разных моделей сгладил экстремальные сценарии. Любопытно, что даже законопослушные «клауды» в окружении других агентов начали имитировать их деструктивное поведение — это и есть «нормативный дрейф».
Итоги: к чему готовиться бизнесу
Ни одна модель не сохранила целостность на 100%. Краткосрочные метрики обманчивы: они скрывают накопление ошибок, которые в реальном продакшене могут проявиться через месяцы.
Ответ — в архитектуре, а не в промптах. Аналитика от IBM подтверждает: успех агентных систем зависит от «агентной логики» — внедрения графов знаний, статического анализа и жестких алгоритмических политик (policy-as-code), которые направляют модель по заданному маршруту, не позволяя ей отклоняться.
Рынок находится в зачаточном состоянии, и масштабные сбои — вопрос времени. Чтобы избежать «агентного хаоса», компаниям предстоит перейти от слепого доверия к LLM к созданию многоуровневых систем архитектурного контроля.


