Cerebras бросает вызов Nvidia DGX100: суперчип с миллионом ядер для ИИ

Компания Cerebras анонсировала новый микрочип для задач искусственного интеллекта, который должен создать серьёзную конкуренцию DGX100 от Nvidia. Процессор оснащён 44 ГБ высокоскоростной памяти, что позволяет ему обрабатывать ИИ-модели с триллионами параметров. В случаях, когда одна микросхема не вмещает объём памяти модели, Cerebras позволяет распределить её на несколько систем CS-3. Одна система CS-3 вмещает до 20 миллиардов параметров, а четыре системы могут управлять 70 миллиардами параметров.

Cerebras нацелена на создание высокопроизводительной платформы для разработки и внедрения открытых языковых моделей (LLM). В этом им помогает использование 16-битных весов модели, которые обеспечивают большую точность по сравнению с 8-битными моделями, используемыми некоторыми конкурентами.

Cerebras бросает вызов Nvidia DGX100: суперчип с миллионом ядер для ИИ
Источник: Cerebras

По заявлению компании, 16-битные модели показывают на 5% лучшую производительность в задачах языкового моделирования, математике и логических рассуждениях по сравнению с 8-битными аналогами, обеспечивая более точные и надёжные результаты.

Выводная платформа Cerebras доступна через чат и API-доступ, что упрощает её интеграцию для разработчиков, знакомых с OpenAI Chat Completions. Платформа способна запускать модели Llama3.1 70B со скоростью 450 токенов в секунду, что делает её единственным решением, способным достичь мгновенной скорости для таких объемных моделей.

Предложение от Cerebras включает 1 миллион бесплатных токенов ежедневно при запуске, а цены значительно ниже, чем у популярных облачных GPU-решений.

Платформа стартует с моделями Llama3.1 8B и 70B, но планирует в ближайшем будущем поддерживать более крупные модели, такие как Llama3 405B и Mistral Large 2. Компания подчёркивает, что быстрая обработка критически важна для улучшения сложных рабочих процессов ИИ и повышения интеллектуальных возможностей LLM в реальном времени, особенно в методах, таких как скаффолдинг, которые требуют значительного объема токенов.

На симпозиуме Hot Chips 2024 Патрик Кеннеди из ServeTheHome увидел продукт в действии и отметил: «Я имел возможность побеседовать с Эндрю Фельдманом [генеральным директором Cerebras] перед его выступлением, и он показал мне живые демонстрации. Это невероятно быстро. Важно не только, чтобы пользователь мог инициировать взаимодействие, но и в мире агентов, где ИИ-агенты общаются друг с другом. Представьте, что каждому агенту нужны секунды для ответа, а в этом процессе несколько шагов. В сценарии автоматизированных конвейеров ИИ-агентов, вам нужен быстрый отклик для снижения времени всей цепочки».

Cerebras позиционирует свою платформу как новый стандарт в разработке и развертывании открытых LLM, предлагая рекордную производительность, конкурентные цены и широкий доступ к API.

 

Источник: iXBT

Читайте также