Компания Nvidia сообщила, что благодаря использованию сетевой платформы Nvidia Spectrum-X Ethernet суперкомпьютерный кластер Colossus, принадлежащий компании xAI и расположенный в Мемфисе, штат Теннесси, достиг впечатляющих масштабов, включающих 100 000 графических процессоров Nvidia Hopper Tensor Core. Эта платформа разработана для достижения высочайшей производительности в многопользовательских гипермасштабируемых фабриках ИИ, используя стандартизированный Ethernet для сетей удаленного прямого доступа к памяти (RDMA).
Colossus, признанный крупнейшим суперкомпьютером в мире для задач искусственного интеллекта, используется для обучения серии крупных языковых моделей Grok от xAI. Эти модели интегрированы в чат-боты, доступные подписчикам X Premium. В настоящее время xAI планирует увеличить размер Colossus в два раза, доведя количество процессоров до 200 000 единиц.
Проект xAI и Nvidia, связанный с созданием нового уровня инфраструктуры и сверхсовременного суперкомпьютера, реализовался всего за 122 дня. Обычно для разработки систем такого уровня может понадобиться от нескольких месяцев до нескольких лет. С момента установки первой стойки оборудования до начала тренировочных процессов прошло всего 19 дней.
При обучении мощной модели Grok суперкомпьютер Colossus демонстрирует невиданную производительность сети. На всех трех уровнях системной структуры отсутствуют задержки в приложениях или потери пакетов из-за коллизий потоков. Устройство удерживает до 95% пропускной способности данных благодаря управлению перегрузками системой Spectrum-X. Достичь подобного уровня производительности при масштабировании с типичным Ethernet сложно, так как он создает множественные коллизии потоков и реализует лишь 60% от возможной пропускной способности данных.
«Компания xAI создала самый крупный и мощный суперкомпьютер в мире, — сообщил представитель xAI. — Графические процессоры Nvidia Hopper в сочетании с технологией Spectrum-X позволяют нам существенно расширять границы возможностей обучения на сверхмасштабных ИИ-моделях, обеспечивая невероятные скорости и оптимизацию на базе стандарта Ethernet».
Ранее глава Nvidia охарактеризовал Илона Маска как сверхчеловека, отметив быстроту, с которой был реализован проект суперкомпьютера Colossus.
Источник: iXBT