Дайджест нейросетей: AI-агенты, нормы безопасности и битва за скорость инференса

10 минут назад

В то время как индустрия вовлечена в дискуссии о «пузыре» и сомнительной ценности стартапов-надстроек над GPT-5, корпоративный сегмент активно возводит фундамент ML-инфраструктуры будущего. Мы стоим на пороге трансформации сервисов, где взаимодействие с интерфейсами перейдет от человека к автономным интеллектуальным агентам.

В свежем дайджесте: анализируем ключевые технологические релизы, разбираемся, почему глава Databricks предвидит закат эры классического SaaS, оцениваем успехи AMD в конкуренции с NVIDIA и обсуждаем, почему безопасность ИИ-агентов возглавила список приоритетов OWASP. Все подробности — далее.

Databricks: трансформация SaaS и эпоха невидимого софта

Али Годси, сооснователь и CEO Databricks, выступил с резонансным прогнозом: развитие ИИ вскоре изменит саму суть традиционной модели SaaS. Десятилетиями вендоры вроде Salesforce или SAP выстраивали барьеры вокруг своих продуктов, приучая миллионы специалистов к специфике своих интерфейсов. Однако с появлением ИИ-агентов UI становится вторичным. Необходимость в экспертах по работе с конкретным ПО снижается — на первый план выходят инструменты управления процессами и качество исходных данных.

Финансовые показатели Databricks демонстрируют впечатляющую динамику:

годовая выручка (run-rate) достигла $5,4 млрд, увеличившись на 65% относительно прошлого года;
подразделение AI сгенерировало более $1,4 млрд дохода при коэффициенте удержания клиентов (retention) свыше 140%;
база данных Lakebase, оптимизированная под задачи агентов, за первые восемь месяцев показала финансовый результат, вдвое превышающий показатели классических хранилищ данных за аналогичный период.

Годси акцентирует внимание на том, что ИИ не уничтожает бизнес SaaS, а радикально ускоряет потребление ресурсов платформы. Программные продукты, неспособные интегрировать свой функционал через качественные API для агентов, рискуют стать достоянием истории. На этом фоне Databricks привлекла $5 млрд инвестиций (при оценке в $134 млрд) и открыла кредитную линию на $2 млрд, формируя мощный финансовый резерв для долгосрочного развития вне зависимости от волатильности биржевых рынков.

ML Impact — фокус на практическом применении ML и AI

За маркетинговым шумом часто теряется реальная ценность технологий для бизнеса. Мы создали ресурс, помогающий структурировать знания об ML и находить эффективные сценарии внедрения.

Узнать больше →

InferenceX v2: доминирование NVIDIA Blackwell и амбиции AMD

Опубликованы результаты свежих тестов производительности GPU. Ключевой вывод: AMD успешно конкурирует в стандартных задачах, однако в высоконагруженных промышленных системах NVIDIA сохраняет технологическое лидерство.

Масштабируемые решения: NVL72 против многоузловых конфигураций AMD

Бенчмарк InferenceX v2 от SemiAnalysis имитирует реальную эксплуатацию чипов в современных архитектурах ЦОД, уделяя особое внимание формату FP4 и архитектуре MoE (Mixture of Experts), критически важным для эффективного инференса.

Системы NVIDIA GB200/GB300 NVL72 демонстрируют колоссальный прирост по сравнению с поколением Hopper. В сценариях с MoE-моделями на FP4 производительность выросла почти в 100 раз при скорости генерации 116 токенов в секунду на пользователя. Экономическая эффективность также на стороне Blackwell: показатель «токенов на доллар» (tokens-per-dollar) превосходит предыдущее поколение в 10–65 раз.

AMD MI355X показывает отличные результаты в рамках одного узла или при частичной оптимизации, зачастую обходя NVIDIA по совокупной стоимости владения (TCO) в режиме FP8. Однако при использовании полного стека SOTA-оптимизаций (disaggregated prefill, wide expert parallelism и FP4) решения NVIDIA B200/B300 уходят в значительный отрыв, поскольку программная часть AMD пока не обеспечивает стабильную работу всех этих функций одновременно.

Программная экосистема и вопросы интеграции

Прогресс AMD в области ПО очевиден: производительность DeepSeek R1 в режиме FP4 на базе SGLang практически удвоилась за короткий промежуток времени. Оптимизированные решения активно внедряются в основной стек разработки.

Уязвимым местом остается «композиция» технологий: софт AMD испытывает сложности при одновременной активации ключевых оптимизаций. В сложных связках реальные показатели MI355X могут существенно уступать теоретическим значениям, заявленным производителем.

В целом, по совокупности характеристик — от энергоэффективности до стоимости генерации токена — архитектура Blackwell от NVIDIA пока удерживает статус наиболее совершенного решения для передовых внедрений.

Экономика и риски ИИ-агентов: данные Axenix

Компания Axenix представила обширный аналитический доклад, сфокусированный на перспективах ИИ-агентов в российском бизнесе. В условиях массового перехода от чат-ботов к автономным системам, вопросы окупаемости таких решений становятся критически важными.

Порог входа существенно варьируется: если малый бизнес может внедрить решение за 5–15 млн ₽, то для корпоративного сектора стоимость интеграции начинается от 950 млн ₽. В среднем крупные игроки инвестируют в это направление 200–300 млн ₽.

Ожидаемый эффект — освобождение до 40% рабочего времени сотрудников в логистике, закупках и поддержке. При этом главная выгода заключается не в прямой экономии на персонале, а в радикальном ускорении бизнес-циклов (time-to-market) и снижении операционных рисков.

Доли рынка (фактический объем продаж) ИИ-агентов по регионам и странам. Источник. — *Доли рынка ИИ-агентов по регионам.* *Источник*.

Российский сегмент ИИ-агентов на данный момент занимает около 1,5% мирового рынка. Локомотивами выступают Data-driven компании, наращивающие инвестиции на 15–30% ежегодно. Тем не менее, более половины организаций сдерживают внедрение из-за дефицита качественных данных и высокой стоимости вычислительных мощностей.

Тепловая карта зрелости ИИ-агентов. Источник. — *Карта технологической зрелости ИИ-агентов.* *Источник*.

Лидерами адаптации технологий остаются финтех и ритейл, где агенты трансформируются в интеллектуальные слои автоматизации между разрозненными ИТ-системами.

Безопасность автономных систем: интерпретация OWASP от Arize

Специалисты Arize представили руководство по соблюдению стандартов безопасности OWASP Agentic Security Initiative (ASI). Основной акцент сделан на observability-инструментах: трассировке, мониторинге и оценке рисков.

В отличие от защиты простых LLM, безопасность агентов требует контроля за системами, способными самостоятельно вызывать инструменты и принимать решения. Это включает фильтрацию промптов, контроль генерации кода и управление правами доступа к API.

ASI01–ASI03: Целеполагание и управление доступом

Ключевые угрозы включают «захват целей» через инъекции (ASI01) и некорректное использование инструментов (ASI02). Для нейтрализации этих рисков Arize рекомендует сквозную трассировку каждого шага в сочетании с тестированием на джейлбрейки. Особое внимание уделяется мультиагентным средам (ASI03), где критически важно логирование параметров и отслеживание аномального поведения для предотвращения кражи учетных данных.

ASI04–ASI07: Инфраструктура, код и взаимодействие

Остро стоит вопрос безопасности динамических компонентов: плагинов, MCP-серверов и моделей (ASI04). Для предотвращения несанкционированного выполнения кода (ASI05) требуется верификация манифестов и использование изолированных «песочниц». Также необходим контроль релевантности контекста в RAG-системах (ASI06) и защита межагентских коммуникаций (ASI07) от перехвата и утечки персональных данных (PII).

ASI08–ASI10: Отказоустойчивость и контроль «изгоев»

Для борьбы с каскадными сбоями (ASI08) применяется анализ графов исполнения. Защита от манипуляций (ASI09) и появления неконтролируемых «агентов-изгоев» (ASI10) базируется на мониторинге поведенческого дрейфа (behavioral drift) — выявлении попыток системы выйти за рамки установленных полномочий.

Kthena: Cloud Native подход к LLM-инференсу

В рамках проекта Volcano (CNCF) представлен Kthena — специализированный оркестратор для запуска LLM в среде Kubernetes. Kthena не заменяет существующие движки (vLLM, SGLang), а служит эффективной управляющей надстройкой.

Основные задачи, которые решает Kthena:

максимизация утилизации GPU через оптимизацию KV-кэша;
эффективная балансировка этапов Prefill и Decode;
упрощение менеджмента парка моделей;
нативная интеграция с ресурсами Kubernetes.

Kthena внедряет механизм ModelBooster для быстрого развертывания моделей и интеллектуальную маршрутизацию с учетом префиксного кэша. Для снижения издержек реализован Cost-Driven Autoscaling, масштабирующий кластер на основе реальной бизнес-необходимости.

Тесты показывают, что Kthena увеличивает пропускную способность систем в 2,73 раза, а время ожидания первого токена (TTFT) сокращается на 73,5%. Проект уже получил признание таких гигантов, как Huawei Cloud и China Telecom.

ИИ и когнитивные способности: эволюция или деградация?

После обзора архитектур и бенчмарков важно оценить влияние технологий на самого человека. Станут ли LLM «интеллектуальным протезом», ослабляющим наши когнитивные функции, или, напротив, послужат мощным ускорителем?

Эту тему обсудили эксперты в новом выпуске «Сегодня на ретро». В дискуссии приняли участие представители СПбГУ, ИТМО и практикующие MLOps-инженеры.

Резюме встречи: текущие опасения напоминают историческую реакцию на появление калькуляторов, телевидения и поисковых систем. Инструменты лишь масштабируют намерения: для тех, кто стремится к развитию, LLM открывают новые горизонты, а для остальных становятся средством упрощения. А какова ваша позиция? Делитесь в комментариях.

Источник