Крупные компании, такие как Apple и NVIDIA, возможно, использовали видео с YouTube для тренировки своих нейронных сетей, сообщается в расследовании Proof News. По их информации, видеоматериалы применялись без согласия их авторов.
Подозреваемым нарушителем авторских прав является некоммерческая организация EleutherAI, которая заявляет о своей поддержке разработчиков в обучении моделей ИИ. Издательство подчеркивает, что она ориентирована на независимых исследователей и учёных, а не на технологические корпорации. EleutherAI создала массив данных Pile, большая часть которого свободно доступна в интернете, при условии наличия ресурсов для его скачивания, хранения и обработки.
Исследователи обнаружили, что в используемом корпорациями датасете содержатся субтитры к 173536 видеороликам с YouTube, взятым с более чем 48 тысяч каналов. Представители Apple, NVIDIA и прочих компаний не предоставили комментариев на запросы издания.
Среди каналов, упомянутых Proof News, присутствуют популярные и известные: MKBHD (19 млн подписчиков), MrBeast (289 млн), Jacksepticeye (31 млн), PewDiePie (111 млн), каналы ток-шоу Стивена Колберта, Джона Оливера и Джимми Киммела, а также образовательные каналы Массачусетского технологического института и Гарвардского университета.
По данным Proof News, The Pile использовался Apple, Anthropic, Nvidia и Salesforce в исследованиях в области искусственного интеллекта и для обучения ИИ-моделей. Apple применила The Pile для тренировки Apple Intelligence и модели OpenELM, которую представила в апреле этого года.
Если в этом инциденте действительно имело место нарушение авторских прав, то основным виновником является некоммерческая организация EleutherAI, а технологические гиганты могли быть добросовестными пользователями общедоступного набора данных. Этот случай вновь подчеркивает, что правовые аспекты обучения ИИ остаются недостаточно проработанными.