«Молчание ИИ-агентов»: как LatentMAS создаёт новый язык взаимодействия

Практически все мультиагентные системы на базе крупных языковых моделей (LLM) полагаются на текстовую коммуникацию: агенты обмениваются планами, уточняют шаги и выносят заключения путём генерации токенов. Такой подход кажется интуитивным, но он влечёт за собой серьёзные ограничения: генерация текста занимает много времени, ошибки на ранних этапах накапливаются и усугубляются, а количество токенов растёт экспоненциально.

Исследователи из Принстона, Стэнфорда и Иллинойса предложили альтернативу: отказаться от обмена текстовыми сообщениями между агентами и вместо этого передавать скрытые представления модели. Их система LatentMAS демонстрирует, что агенты могут взаимодействовать непосредственно в латентном пространстве — там, где «формируются» их мысли.

Концепция: обмен скрытыми состояниями вместо текста

«Молчание ИИ-агентов»: как LatentMAS создаёт новый язык взаимодействия

В LatentMAS агент больше не порождает токены. Вместо этого он формирует последовательность скрытых векторов последнего слоя, которые:

  1. сохраняются в KV-кэше трансформера;
  2. передаются следующему агенту;
  3. служат контекстом для дальнейших рассуждений.

Таким образом, весь процесс вывода происходит внутри скрытого пространства, а текст появляется лишь один раз — при финальной генерации ответа.

Это возможно потому, что именно скрытые представления хранят истинный смысл в LLM, тогда как текст — лишь человекоориентированный интерфейс, неэффективный для машинного взаимодействия.

Преимущества латентного обмена

Сравнение информативности латентных представлений и текста

Латентные векторы содержат больше смысла, чем текст

Каждое скрытое состояние аккумулирует куда более богатую семантику, чем один токен. Последовательность скрытых векторов накапливает информацию быстрее и плотнее, чем цепочка текстовых рассуждений. Чтобы передать тот же объём сведений словами, потребовалось бы в разы больше токенов.

Поэтому LatentMAS решает сложные задачи всего за десятки латентных шагов вместо тысяч или десятков тысяч токенов.

Передача KV-кэша без потерь

KV-кэш хранит промежуточные ключи и значения механизма внимания. При передаче этого кэша другому агенту последний получает тот же контекст, что был бы при текстовой генерации и повторном кодировании, но без временных и ресурсных затрат.

В итоге такой подход обеспечивает:

  • отсутствие искажений, присущих текстовой форме;
  • исключение накладных расходов на генерацию токенов;
  • более плавное и непрерывное рассуждение.

Снижение вычислительной нагрузки

Латентные шаги не требуют работы с выходным словарём, а длина скрытых последовательностей значительно короче текстовых. Это обеспечивает кратное ускорение по сравнению с текстовым мультиагентным режимом, даже оптимизированным через vLLM.

Архитектура LatentMAS: последовательная и иерархическая схемы

Последовательная и иерархическая схемы LatentMAS

LatentMAS не меняет логику оркестрации агентов — меняется лишь формат передачи данных. Агенты выполняют роли планировщика, критика, уточнителя и решателя, обмениваясь скрытыми состояниями вместо текста.

Иерархическая структура

Несколько специализированных агентов (например, математического, научного и программного профиля) автономно продуцируют свои рассуждения, а агрегатор объединяет их через полученные KV-кэши.

Обе схемы — последовательная и иерархическая — демонстрируют сопоставимый рост производительности при переходе от текстового обмена к латентному.

Результаты: точность, скорость и экономия ресурсов

Результаты экспериментов LatentMAS

Увеличение точности

LatentMAS повышает качество решений по сравнению с одиночной моделью на двузначные проценты, а относительно текстового мультиагентного режима — на несколько процентов в самых сложных тестах. Особенно это заметно в задачах, где TextMAS склонен к накоплению ошибок.

Ускорение инференса

Система стабильно ускоряет вычисления в 4× и более, даже по сравнению с оптимизированным через vLLM TextMAS. На отдельных задачах достигается семикратный прирост скорости.

Сокращение числа токенов

LatentMAS уменьшает объём генерируемых токенов на 70–80% относительно текстовых мультиагентных систем и значительно снижает нагрузку даже по сравнению с одиночной моделью.

Внутреннее строение латентных представлений

Визуализация латентных состояний и эмбеддингов

Авторы визуализировали распределение скрытых состояний и эмбеддингов токенов. Оказалось, что латентные «мысли» занимают те же семантические области, что и эмбеддинги токенов, но охватывают более обширное пространство векторов.

Это доказывает, что латентные представления не просто заменяют токены, а формируют более гибкую и ёмкую структуру смыслов.

Пример: когда TextMAS ошибается, а LatentMAS находит верное решение

На примере одного задания из GSM8K в TextMAS ошибка на этапе планирования накапливается и приводит к неверному итогу. LatentMAS же передаёт полное семантическое состояние предыдущего агента без текстовых искажений, позволяя финальному модулю восстановить корректное рассуждение и получить правильный ответ.

Ограничения и перспективы

LatentMAS требует, чтобы агенты использовали совместимые архитектуры скрытых пространств. В будущем это можно решить через адаптеры или дополнительное обучение. Перспектива — разработка обучаемых протоколов обмена в латентном пространстве, где агенты оптимизируют взаимодействие так же, как сегодня оптимизируют генерацию текстов.

Тем не менее, уже сейчас LatentMAS доказывает, что текст — далеко не единственный и не самый эффективный язык общения между моделями. Переход к латентному взаимодействию открывает новые возможности для мультиагентных систем, способных сотрудничать быстрее, глубже и надёжнее.


Чтобы не пропустить новые статьи, подписывайтесь на «Голос Технократии» — мы регулярно публикуем новости об AI, LLM, RAG, делимся полезными мастер-классами и актуальными событиями.

 

Источник

Читайте также