Мы обучили ИИ мыслить как программист — и теперь не знаем, что он задумал

Вспомните момент в «Матрице», когда Нео за секунду закачивают джиу-джитсу прямо в память. Он тут же начинает драться, будто посвятил этому десять лет. Я воображала себе ИИ-агентов так же: дайте им полный набор инструментов — и они мгновенно поймут, как ими оперировать.

Однако, по мере знакомства с технологиями, я поняла, что мои детские фантазии далеки от реальности.

Я увлеклась ИИ-агентами всего пару лет назад. Я не программистка, а любопытный человек, обожающий разбираться в новом. Чем больше я изучала тему, тем отчетливее понимала: под гладкой оболочкой кроется невероятно сложная машина.

Представление о простом интерфейсе напоминает вид из иллюминатора самолета — всё кажется плавным, но за этой грацией стоят сотни взаимодействующих систем.

Например, запрос «выбери значимые комментарии» в Comet от Perplexity активирует череду агентов:

один сканирует страницу,
другой находит блоки с отзывами,
третий отфильтровывает мусор,
четвёртый группирует сходные мнения,
пятый оценивает тональность,
шестой готовит финальный отчёт.

Каждый этап передаёт данные следующему, создавая невидимую пользователю цепочку вычислений.

В одиночном браузере это ещё терпимо, но в корпоративной среде, где каждый шаг требует вызова через MCP (Model Context Protocol), сложность растёт взрывными темпами.

Каждый вызов MCP:

требует ресурсов процессора,

запускает сопутствующие процессы,

порождает новые данные для интерпретации моделью,

зависит от внешних систем.

Отдельно эти затраты малы, но в многоагентных сценариях они накапливаются, порождая ту самую «скрытую» сложность.

Статья «Выполнение кода через MCP: оптимизация агентов» помогла мне связать воедино накладные расходы, архитектуру агентов и возможную экономию.

Делегируйте рутину вместе с BotHub: без VPN, с российской картой. По ссылке вы получите 100 000 бесплатных токенов для первых экспериментов!

От первых тестов в Gmail до голосовых помощников

Год назад я едва понимала, что могут делать ИИ-агенты, кроме общения в стиле ChatGPT. Начала с Gmail: просила агенту проверить встречи в календаре и собрать короткую сводку. Результат впечатлил.

Затем я открыла голосовые ИИ-агенты и выяснила, что здесь всё решает латентность. На исследованиях Retell AI видно: ответ платформы занимает 620 мс, в то время как Google Dialogflow CX и Twilio часто тянут 900–1000 мс, что нарушает ощущение «живого» разговора.

Оказалось, моя «задержка размышлений» — не магия, а скрытые накладные расходы на вызовы инструментов. Именно здесь на арену вышел MCP.

Как MCP упростил интеграции

До ноября 2024 года для каждого инструмента требовался индивидуальный код — мигалки интеграции, съедавшие инженерные часы. Model Context Protocol стал универсальным адаптером, открыв доступ к сотням сервисов через единый API.

Разработчики развернули тысячи MCP-серверов и начали собирать агентов, способных работать с десятками и сотнями инструментов без «ручной» настройки.

Парадокс «Вавилонской библиотеки»

По мотивам рассказа Борхеса, infinite library — это тысячи залов с любыми книгами, но найти хоть что-то ценное невозможно. Точно так же ИИ-агенты тонут в описаниях всех подключённых сервисов.

При доступе к множеству инструментов агент:

загружает схемы всех API,

перебирает их возможности,

потом решает, что применить.

Когда автоматизаторы типа Zapier AI получают задачу «помести файл в Dropbox», они сначала загружают документацию по Dropbox, а потом — по всем остальным сервисам, прежде чем выбрать одну операцию.

Стоимость токенов и контекстные ограничения

Я наткнулась на тестовый кейс, где агента попросили перенести стенограмму двухчасовой встречи из Google Диска в Salesforce. Стенограмма — 50 000 токенов, но в итоге «сгорело» 150 000!

Почему? Агент дважды загружал текст и ещё «пожирал» токены на описания инструментов. В контекстном окне модели ограничение ≈100 000 токенов — и при превышении процесс рушится.

Агенты тонут в объёме данных и часто ошибаются, когда текст превышает контекстные рамки.

Режим кода меняет правила

Anthropic предложила «режим кода»: вместо прямых вызовов инструментов модель генерирует скрипты (Python, JS), которые выполняются в изолированной среде.

Инструменты становятся как файлы в папках: агент просматривает только нужные определения, не загружая весь репозиторий в память. Это «прогрессивное раскрытие» — загрузка только по требованию.

Экономия токенов: со 150 000 до 2 000

Переведя кейс «Google Диск → Salesforce» в код, команда Anthropic сократила потребление токенов с 150 000 до 2 000 — экономия 98,7%! Вместо двойного чтения стенограммы код передаёт данные напрямую через среду выполнения.

Автономные агенты создают навыки

С файловой системой агенты могут сохранять скрипты и промежуточные результаты в «Skills» — папках с повторно используемыми инструкциями. Созданный once скрипт становится встроенным функционалом агента.

Новая степень автономии и её риски

Anthropic признаёт, что исполнение кода увеличивает требования к инфраструктуре и безопасности. Нужно надёжное песочничное окружение, ресурсы и непрерывный мониторинг.

«Внедрение привычных DevOps-практик в окружение ИИ-агентов требует тщательного взвешивания преимуществ и рисков.»

Запускаем ли мы цифровых мастеров или создаём чёрные ящики, контролировать которые будет всё сложнее? Пока ответов нет, но важно сохранять прозрачность процессов.

Ваше мнение

Как вы считаете, станет ли обучение агентов программированию революцией или мы получим неконтролируемые системы? Поделитесь мыслями в комментариях!