Стартап xAI, возглавляемый Илоном Маском и ответственный за создание нейросети Grok, столкнулся с существенными трудностями при наращивании масштабов своей вычислительной инфраструктуры. Как сообщает издание The Information, несмотря на развертывание внушительного парка, насчитывающего около 550 000 передовых ускорителей Nvidia H100 и H200 в составе кластеров Memphis и Colossus, полезная нагрузка на эти системы не превышает 11%.

Фактически, колоссальные ресурсы простаивают: производительность всей системы сопоставима с работой всего лишь 60 тысяч GPU. Основная проблема заключается не в дефиците аппаратного обеспечения, а в сложности управления столь масштабной инфраструктурой. При работе с сотнями тысяч графических процессоров латентность при обмене данными, задержки синхронизации и паузы между фазами обучения накапливаются лавинообразно, создавая критические «узкие места».
Согласно полученной информации, текущее программное обеспечение и методы распределенного обучения, применяемые в xAI, пока не достигли необходимого уровня зрелости. В результате графические ускорители значительную часть времени простаивают в ожидании потоков данных или вычислительных задач, что негативно сказывается на КПД. Отраслевые эксперты подчеркивают, что с подобными препятствиями сталкиваются многие гиганты индустрии, поскольку обеспечение высокой эффективности загрузки на сверхкрупных кластерах остается сложнейшей инженерной задачей.
Для сравнения, ведущие игроки рынка, такие как Meta* и Google, демонстрируют более высокие показатели утилизации инфраструктуры — на уровне 43% и 46% соответственно, хотя даже такие результаты далеки от эталонных. В планах xAI — повысить эффективность использования мощностей до 50%, однако конкретные временные рамки достижения этой цели пока не обозначены.
* Компания Meta признана в России экстремистской и запрещена.
Источник: iXBT


