Гигантские микросхемы Cerebras WSE-3, сопоставимые по размеру с iPad, способны обеспечивать работу нейросетей на головокружительной скорости, превосходя современные облачные серверы, оснащенные GPU, в несколько раз.
Как сообщила компания Cerebras, они успешно запустили клиентскую рабочую нагрузку на новейшей модели Llama 3.1 405B со скоростью 969 токенов в секунду, что является новым рекордом для линейки Frontier.
Модель Llama 3.1 405B на основе технологии Cerebras — признана самой быстрой моделью Frontier в мире, демонстрирующей в 12 раз большую скорость по сравнению с GPT-4o и в 18 раз более быстрые результаты, чем Claude 3.5 Sonnet.
Модель была реализована с помощью облачного сервиса Cerebras Inference, который эксплуатирует уникальные микросхемы WSE-3. Cerebras всегда подчеркивала, что её сервис Inference является самым производительным в вопросах генерации токенов для больших языковых моделей.
С момента запуска в августе, утверждалось, что Cerebras Inference работает в 20 раз быстрее, чем графические процессоры Nvidia, примененные через облачных провайдеров, таких как Amazon Web Services, на моделях Llama 3.1 8B и Llama 3.1 70B. Теперь же новейшая модель Llama 3.1 405B, содержащая 405 миллиардов параметров, демонстрирует впечатляющие результаты.
Для иллюстрации впечатляющей скорости, Cerebras поручила своему сервису реализовать программу для шахмат на языке Python. Cerebras Inference справился с задачей примерно за 3 секунды, тогда как Fireworks — наиболее быстрый облачный ИИ-сервис с графическими процессорами — потребовал для этого 20 секунд.
Компания также с гордостью отметила, что даже один процессор WSE-2 превосходит суперкомпьютер Frontier в 768 раз при моделировании молекулярной динамики. С 2021 года Frontier удерживал титул самого быстрого суперкомпьютера в мире, и только сейчас его потеснил El Capitan.
Напомним, что Cerebras WSE-3 обладает 4 триллионами транзисторов, 900 000 ядрами и 44 ГБ памяти с пропускной способностью 21 ПБ/с.
Источник: iXBT