Компания Cerebras анонсировала новый микрочип для задач искусственного интеллекта, который должен создать серьёзную конкуренцию DGX100 от Nvidia. Процессор оснащён 44 ГБ высокоскоростной памяти, что позволяет ему обрабатывать ИИ-модели с триллионами параметров. В случаях, когда одна микросхема не вмещает объём памяти модели, Cerebras позволяет распределить её на несколько систем CS-3. Одна система CS-3 вмещает до 20 миллиардов параметров, а четыре системы могут управлять 70 миллиардами параметров.
Cerebras нацелена на создание высокопроизводительной платформы для разработки и внедрения открытых языковых моделей (LLM). В этом им помогает использование 16-битных весов модели, которые обеспечивают большую точность по сравнению с 8-битными моделями, используемыми некоторыми конкурентами.
По заявлению компании, 16-битные модели показывают на 5% лучшую производительность в задачах языкового моделирования, математике и логических рассуждениях по сравнению с 8-битными аналогами, обеспечивая более точные и надёжные результаты.
Выводная платформа Cerebras доступна через чат и API-доступ, что упрощает её интеграцию для разработчиков, знакомых с OpenAI Chat Completions. Платформа способна запускать модели Llama3.1 70B со скоростью 450 токенов в секунду, что делает её единственным решением, способным достичь мгновенной скорости для таких объемных моделей.
Предложение от Cerebras включает 1 миллион бесплатных токенов ежедневно при запуске, а цены значительно ниже, чем у популярных облачных GPU-решений.
Платформа стартует с моделями Llama3.1 8B и 70B, но планирует в ближайшем будущем поддерживать более крупные модели, такие как Llama3 405B и Mistral Large 2. Компания подчёркивает, что быстрая обработка критически важна для улучшения сложных рабочих процессов ИИ и повышения интеллектуальных возможностей LLM в реальном времени, особенно в методах, таких как скаффолдинг, которые требуют значительного объема токенов.
На симпозиуме Hot Chips 2024 Патрик Кеннеди из ServeTheHome увидел продукт в действии и отметил: «Я имел возможность побеседовать с Эндрю Фельдманом [генеральным директором Cerebras] перед его выступлением, и он показал мне живые демонстрации. Это невероятно быстро. Важно не только, чтобы пользователь мог инициировать взаимодействие, но и в мире агентов, где ИИ-агенты общаются друг с другом. Представьте, что каждому агенту нужны секунды для ответа, а в этом процессе несколько шагов. В сценарии автоматизированных конвейеров ИИ-агентов, вам нужен быстрый отклик для снижения времени всей цепочки».
Cerebras позиционирует свою платформу как новый стандарт в разработке и развертывании открытых LLM, предлагая рекордную производительность, конкурентные цены и широкий доступ к API.
Источник: iXBT