Датасет от Яндекса ускорил обучение рекомендательных нейросетей в 60 раз

Исследователи из Университета Амстердама совершили значительный прорыв, увеличив скорость обучения рекомендательных алгоритмов почти в 60 раз. Добиться столь впечатляющих показателей удалось благодаря использованию российского открытого массива данных Yambda, который был представлен «Яндексом» в 2025 году. Об этом официально сообщили представители технологической компании. 

Датасет от Яндекса ускорил обучение рекомендательных нейросетей в 60 раз
Визуализация подготовлена нейросетью Grok

Специалисты усовершенствовали архитектуру Seater, которая систематизирует товары и медиаконтент в виде многоуровневого каталога, напоминающего древовидную структуру папок. Такая организация данных позволяет генерировать персональные подборки быстрее и точнее. Однако ранее процесс формирования подобного каталога был крайне ресурсоемким и отнимал до 20% времени от общего цикла обучения. Ученые предложили две новые стратегии подготовки данных: максимально оперативную и гибридную, включающую этап тонкой настройки.

В ходе экспериментов с использованием Yambda скоростной метод позволил сократить время предварительной обработки с 82 минут до 83 секунд, сохранив при этом высокую релевантность рекомендаций. Комбинированный сценарий ускорил процесс в 15 раз, продемонстрировав при этом прирост точности. В конечном итоге модель Seater превзошла по эффективности такие популярные системы, как SASRec, BERT4Rec и GRU4Rec, показав преимущество в диапазоне 13–17%.

Авторы исследования подчеркивают, что именно масштаб Yambda позволил доказать жизнеспособность генеративных рекомендательных моделей при работе с колоссальными объемами данных. Весь программный код обновленной модели Seater опубликован в открытом доступе для внедрения в реальные ИТ-продукты. Напомним, что датасет Yambda содержит около 5 миллиардов анонимизированных пользовательских событий из сервиса «Яндекс Музыка» и является одним из самых масштабных публичных наборов данных в мировом научном сообществе.

 

Источник: iXBT

Читайте также