Практически все мультиагентные системы на базе крупных языковых моделей (LLM) полагаются на текстовую коммуникацию: агенты обмениваются планами, уточняют шаги и выносят заключения путём генерации токенов. Такой подход кажется интуитивным, но он влечёт за собой серьёзные ограничения: генерация текста занимает много времени, ошибки на ранних этапах накапливаются и усугубляются, а количество токенов растёт экспоненциально.
Исследователи из Принстона, Стэнфорда и Иллинойса предложили альтернативу: отказаться от обмена текстовыми сообщениями между агентами и вместо этого передавать скрытые представления модели. Их система LatentMAS демонстрирует, что агенты могут взаимодействовать непосредственно в латентном пространстве — там, где «формируются» их мысли.
Концепция: обмен скрытыми состояниями вместо текста

В LatentMAS агент больше не порождает токены. Вместо этого он формирует последовательность скрытых векторов последнего слоя, которые:
- сохраняются в KV-кэше трансформера;
- передаются следующему агенту;
- служат контекстом для дальнейших рассуждений.
Таким образом, весь процесс вывода происходит внутри скрытого пространства, а текст появляется лишь один раз — при финальной генерации ответа.
Это возможно потому, что именно скрытые представления хранят истинный смысл в LLM, тогда как текст — лишь человекоориентированный интерфейс, неэффективный для машинного взаимодействия.
Преимущества латентного обмена

Латентные векторы содержат больше смысла, чем текст
Каждое скрытое состояние аккумулирует куда более богатую семантику, чем один токен. Последовательность скрытых векторов накапливает информацию быстрее и плотнее, чем цепочка текстовых рассуждений. Чтобы передать тот же объём сведений словами, потребовалось бы в разы больше токенов.
Поэтому LatentMAS решает сложные задачи всего за десятки латентных шагов вместо тысяч или десятков тысяч токенов.
Передача KV-кэша без потерь
KV-кэш хранит промежуточные ключи и значения механизма внимания. При передаче этого кэша другому агенту последний получает тот же контекст, что был бы при текстовой генерации и повторном кодировании, но без временных и ресурсных затрат.
В итоге такой подход обеспечивает:
- отсутствие искажений, присущих текстовой форме;
- исключение накладных расходов на генерацию токенов;
- более плавное и непрерывное рассуждение.
Снижение вычислительной нагрузки
Латентные шаги не требуют работы с выходным словарём, а длина скрытых последовательностей значительно короче текстовых. Это обеспечивает кратное ускорение по сравнению с текстовым мультиагентным режимом, даже оптимизированным через vLLM.
Архитектура LatentMAS: последовательная и иерархическая схемы

LatentMAS не меняет логику оркестрации агентов — меняется лишь формат передачи данных. Агенты выполняют роли планировщика, критика, уточнителя и решателя, обмениваясь скрытыми состояниями вместо текста.
Иерархическая структура
Несколько специализированных агентов (например, математического, научного и программного профиля) автономно продуцируют свои рассуждения, а агрегатор объединяет их через полученные KV-кэши.
Обе схемы — последовательная и иерархическая — демонстрируют сопоставимый рост производительности при переходе от текстового обмена к латентному.
Результаты: точность, скорость и экономия ресурсов

Увеличение точности
LatentMAS повышает качество решений по сравнению с одиночной моделью на двузначные проценты, а относительно текстового мультиагентного режима — на несколько процентов в самых сложных тестах. Особенно это заметно в задачах, где TextMAS склонен к накоплению ошибок.
Ускорение инференса
Система стабильно ускоряет вычисления в 4× и более, даже по сравнению с оптимизированным через vLLM TextMAS. На отдельных задачах достигается семикратный прирост скорости.
Сокращение числа токенов
LatentMAS уменьшает объём генерируемых токенов на 70–80% относительно текстовых мультиагентных систем и значительно снижает нагрузку даже по сравнению с одиночной моделью.
Внутреннее строение латентных представлений

Авторы визуализировали распределение скрытых состояний и эмбеддингов токенов. Оказалось, что латентные «мысли» занимают те же семантические области, что и эмбеддинги токенов, но охватывают более обширное пространство векторов.
Это доказывает, что латентные представления не просто заменяют токены, а формируют более гибкую и ёмкую структуру смыслов.
Пример: когда TextMAS ошибается, а LatentMAS находит верное решение
На примере одного задания из GSM8K в TextMAS ошибка на этапе планирования накапливается и приводит к неверному итогу. LatentMAS же передаёт полное семантическое состояние предыдущего агента без текстовых искажений, позволяя финальному модулю восстановить корректное рассуждение и получить правильный ответ.
Ограничения и перспективы
LatentMAS требует, чтобы агенты использовали совместимые архитектуры скрытых пространств. В будущем это можно решить через адаптеры или дополнительное обучение. Перспектива — разработка обучаемых протоколов обмена в латентном пространстве, где агенты оптимизируют взаимодействие так же, как сегодня оптимизируют генерацию текстов.
Тем не менее, уже сейчас LatentMAS доказывает, что текст — далеко не единственный и не самый эффективный язык общения между моделями. Переход к латентному взаимодействию открывает новые возможности для мультиагентных систем, способных сотрудничать быстрее, глубже и надёжнее.
Чтобы не пропустить новые статьи, подписывайтесь на «Голос Технократии» — мы регулярно публикуем новости об AI, LLM, RAG, делимся полезными мастер-классами и актуальными событиями.


