Компания Яндекс представила для публичного использования Yambda (YAndex Music Billion-interactions DAtaset) — один из самых крупных в мире наборов данных, предназначенных для развития рекомендательных систем. В пресс-службе указали, что Yambda позволит учёным, исследователям и образовательным учреждениям по всему миру проверять и совершенствовать алгоритмы рекомендаций.

Данный датасет представлен в трёх вариантах: полная версия насчитывает 5 миллиардов записей, а сокращённые — 500 миллионов и 50 миллионов. Разработчики и исследователи могут выбрать наиболее подходящую версию в соответствии с задачами и доступными вычислительными ресурсами. Все данные и код для измерений доступны на HuggingFace.
Yambda базируется на обезличенных данных платформы «Яндекс Музыка» — ведущего российского музыкального сервиса по подписке. В Яндексе поясняют, что датасет может быть использован для оценки качества любых рекомендательных систем, поскольку в их основе лежат схожие алгоритмы.
Yambda содержит агрегированные данные о прослушиваниях, «лайках», «дизлайках», а также некоторых характеристиках треков. Все данные о пользователях и треках зашифрованы: в датасете представлены исключительно числовые идентификаторы, что гарантирует конфиденциальность.
Источник: iXBT