Яндекс ускорил обучение нейросетей: подобные технологии есть лишь у Meta*, AMD и компаний из КНР

Инженерам Яндекса удалось существенно повысить производительность процессов обучения больших языковых моделей (LLM), сохранив при этом эталонное качество и масштаб проектов. Благодаря глубокой модернизации инфраструктуры компания оптимизировала операционные издержки, достигнув годовой экономии в размере 4,8 млрд рублей, что в среднем составляет около 400 млн рублей в месяц.

Яндекс ускорил обучение нейросетей: подобные технологии есть лишь у Meta*, AMD и компаний из КНР
Визуализация создана с помощью нейросети Grok

Фундаментом обновленного подхода стала проприетарная библиотека YCCL (Yet Another Collective Communication Library). Она позволила вдвое интенсифицировать межпроцессорное взаимодействие графических ускорителей и сократить объем передаваемого трафика. Кроме того, часть управляющих функций была успешно перенесена с GPU на центральные процессоры. Представители Яндекса подчеркнули:

Библиотека YCCL демонстрирует отличную масштабируемость на сверхмощных кластерах. Решениями сопоставимого уровня на сегодняшний день обладают лишь признанные лидеры индустрии — Meta*, AMD и крупнейшие технологические корпорации Китая.

Дополнительный прирост эффективности обеспечил переход на формат вычислений FP8 с пониженной разрядностью. Это ускорило процесс обучения на 30% и в два раза снизило нагрузку на коммуникационные каналы. Увеличение размера пакета данных (батча) до 16–32 млн токенов позволило эксплуатировать графические процессоры без простоев. Параллельно компания повысила общую отказоустойчивость IT-инфраструктуры, что минимизировало частоту аппаратных сбоев и затраты на перезапуск вычислительных сессий. Комплексные архитектурные улучшения и программная оптимизация вывели функциональность системы на новый уровень.

* Деятельность компании Meta (соцсети Facebook и Instagram) признана экстремистской и запрещена на территории Российской Федерации.

 

Источник: iXBT

Читайте также