Илон Маск выразил солидарность с другими экспертами в сфере искусственного интеллекта, заявив, что реальные данные для обучения ИИ-моделей практически исчерпаны.
«Мы уже использовали большую часть человеческих знаний для обучения ИИ. Это случилось в прошлом году», — сообщил Маск в ходе трансляции беседы с главой Stagwell Марком Пенном на платформе X.
Маск, руководящий компанией xAI, поддержал тезисы Ильи Суцкевера, бывшего главного научного сотрудника OpenAI, который высказал их на конференции по машинному обучению NeurIPS в декабре. Суцкевер заявил, что индустрия ИИ достигла «первенства данных», и отсутствие обучающих данных приведёт к смене подходов в разработке моделей.
Маск предложил альтернативу — использование данных, созданных самими ИИ-моделями. «Единственное решение для восполнения реальной информации — это синтетические данные, которые ИИ генерирует сам. С их помощью он сможет самооцениваться и обучаться самостоятельно», — отметил он.
Крупные технологические гиганты, такие как Microsoft, Meta*, OpenAI и Anthropic, уже внедрили синтетические данные для обучения своих передовых ИИ-моделей. Согласно прогнозам Gartner, 60% данных для проектов в области ИИ и аналитики в 2024 году будут синтетического происхождения. Модель Microsoft Phi-4, исходный код которой был открыт на этой неделе, обучалась на смеси синтетических и реальных данных. Похожий метод применяли в Google при разработке моделей Gemma. Anthropic внедрила синтетические данные в одной из своих успешных систем — Claude 3.5 Sonnet, а Meta* усовершенствовала последнюю версию Llama благодаря ИИ-сгенерированным данным.
Использование синтетических данных для обучения предоставляет экономические преимущества. Стартап Writer сообщил, что их модель Palmyra X 004, созданная почти исключительно на синтетических источниках, стоила $700 000 — значительно дешевле, чем предполагаемая стоимость $4,6 миллиона на схожую модель от OpenAI.
Тем не менее, есть и свои недостатки. Некоторые исследования указывают на возможность «коллапса модели», при котором ИИ теряет творческую способность и его выводы становятся более предвзятыми, что может нарушить его работу. Поскольку модели создают синтетические данные, опираясь на уже существующие, любые упущения и ограничения исходных данных будут повторяться.
*Meta признана экстремистской организацией, её деятельность на территории Российской Федерации запрещена
Источник: iXBT