В мультиагентных средах, где сосуществуют несколько ИИ-субъектов, цели участников зачастую вступают в противоречие. Стремление каждого агента к максимизации личной выгоды нередко подрывает общую продуктивность системы, что особенно критично для децентрализованных структур, где доступные данные ограничены локальным контекстом каждого узла.
Исследовательская группа Paradigms of Intelligence из Google представила альтернативу традиционному жесткому программированию протоколов координации. Вместо фиксации правил ученые применили метод Predictive Policy Improvement (PPI), обучая модели в окружении с неоднородным составом оппонентов — от статичных до динамически развивающихся систем. Благодаря этому агенты научились мгновенно подстраиваться под действия визави в режиме реального времени, опираясь исключительно на накопленный опыт взаимодействия.

Иллюстрация: Grok
Для проверки гипотезы была выбрана повторяющаяся «дилемма заключенного» (Iterated Prisoner’s Dilemma, IPD) — фундаментальная теоретико-игровая модель, демонстрирующая конфликт между эгоистичным интересом и коллективной синергией. Экспериментально подтверждено, что агенты способны прийти к устойчивому сотрудничеству без предопределенных ролей или глубокого понимания внутренних алгоритмов партнеров.
Центральным фактором успеха стало использование вариативного пула соперников с различными стилями поведения и параметрами. Это обеспечило формирование универсальных паттернов, сохраняющих эффективность даже при смене окружения или появлении новых участников. Примечательно, что такой результат был достигнут без расширения контекстного окна: системы научились максимально эффективно интерпретировать уже имеющиеся данные.
В отличие от популярных фреймворков (таких как LangGraph), где логика переходов и сценарии взаимодействия прописываются вручную, концепция Google опирается на стандартные методы обучения с подкреплением (например, GRPO). В этой парадигме роль разработчика трансформируется: он перестает быть составителем инструкций и становится архитектором среды, в которой агенты автономно вырабатывают наиболее продуктивные и безопасные способы коммуникации.
Авторы подчеркивают, что предложенная методология отличается высокой масштабируемостью и вычислительной рентабельностью, что делает ее перспективной для внедрения в сложные корпоративные экосистемы.
Источник: iXBT


