Meta* объявила о стратегическом альянсе с Cerebras Systems для внедрения Llama API — сервиса, который обеспечивает обработку данных ИИ с производительностью до 18 раз выше по сравнению с традиционными графическими процессорами. Об этом было сообщено на первой конференции разработчиков LlamaCon, знаменуя выход Meta на рынок коммерческого инференса, где сейчас лидируют такие компании, как OpenAI, Google и Anthropic. Это первое сотрудничество Meta с гиперскейлером, что подчеркивает эффективность их чипов wafer-scale.
Анализ от Artificial Analysis продемонстрировал, что система Cerebras обрабатывает более 2600 токенов в секунду для модели Llama 4 Scout — это в 20 раз быстрее ChatGPT (~130 токенов/с) и на два порядка выше DeepSeek (~25 токенов/с).

Ранее Meta предоставляла только общедоступные модели Llama (загруженные более 1 миллиарда раз), без облачной инфраструктуры. Теперь компания превратила их в коммерческий продукт, вступая в конкурентную борьбу на рынке токенов. «Разработчики приобретают их в огромных количествах, как инструкции для AI-приложений, — объясняет Джеймс Ванг из Cerebras. — Скорость в 100 токенов/с, как у GPT, приемлема для чатов, но недостаточна для сложного анализа или голосовых интерфейсов».
Новый API предлагает возможности для приложений, требующих минимальной задержки: интерактивная генерация кода, многослойный анализ за секунды и голосовые интерфейсы с мгновенной реакцией. Сервис поддерживает тонкую настройку моделей (начиная с Llama 3.3 8B) и предлагает инструменты для оценки их качества. Meta гарантирует, что данные разработчиков не будут использоваться для обучения их собственных моделей, а разработанные решения могут быть использованы на других платформах — в отличие от закрытых систем конкурентов.
Llama API уже доступен в ограниченном предварительном доступе. Для подключения, разработчикам достаточно выбрать Cerebras в настройках SDK Meta и получить API-ключ. Массовый запуск ожидается в ближайшие месяцы.
* Компания Meta (Facebook и Instagram) признана в России экстремистской и запрещена
Источник: iXBT



