В последнее время в медиаполе было много сообщений о том, что закончились данные для обучения новых больших языковых моделей. Не просто размеченные данные, а новые, с которыми можно работать, включая их разметку. Проще говоря: большие модели теперь знают все, что есть в интернете. И это серьезный вызов как для отрасли AI, так и для развития нашей цивилизации в целом.
С вами Павел Бузин из Cloud.ru, я каждый день работаю с данными для машинного обучения, и сегодня мы разберемся, что будем делать, когда у моделей закончится «еда».
Чем чревата нехватка данных для обучения
Подтверждение нехватки данных уже неоднократно появлялось как на отечественных (РБК, Ведомости, VC) ресурсах, так и в зарубежных СМИ (The New York Times, Time). Более того: осенью 2024 тестировщики Open AI обнаружили, что, несмотря на общий рост производительности самой последней языковой модели под кодовым названием Orion, прогресс при переходе на нее менее заметен, чем при переходе от Chat GPT-3 к Chat GPT-4. Они связывают это с тем, что модель обучили уже на всех легкодоступных данных.
Это может повлечь за собой сокращение темпов прогресса в обучении новых моделей, в том числе через резкое увеличение стоимости.
Но спойлер — катастрофы не случится. Прогресс в области нейронных сетей связан не только с наличием данных в интернете, есть и другие пути повышения качества моделей, которые мы рассмотрим в этой статье.
Применение ранее не использованных данных
В интернете практически закончились тексты и картинки для разметки, но живая речь, библиотеки мира, архивы периодики на разных языках, произведения искусства, археологические находки, к счастью, еще не иссякли и даже не полностью оцифрованы, не говоря уже о разметке этой «цифры».
Практически каждая компания располагает огромным массивом неиспользуемых данных. Таких, как:
-
архивы телеметрии оборудования какой-нибудь промышленной установки;
-
метеосводки по определенной местности;
-
логи работы информационных систем;
-
электронные архивы и базы данных;
-
статистика рекламных кампаний;
-
статистика и логи работы игровых серверов и другого.
Просто сложено все в хранилищах, не структурировано, и владельцы пока не знают, как использовать эти данные эффективно.
Развитие LLM дает нам возможность структурировать и в дальнейшем использовать эти данные для обучения новых моделей.
Вовлечение труднодоступных данных
Есть категории данных, которые компании-владельцы не имеют права передавать. Это медицинские карты, данные об абонентах сотовой связи, геофизические данные, финансовая информация и многое другое.
Здесь приходит на помощь федеративное обучение. Это один из методов, когда обучение модели происходит без передачи чувствительных данных от владельца датасета к владельцу модели. Основная цель федеративного обучения — обеспечение безопасности и конфиденциальности исходных данных.
В процессе федеративного обучения на одном из этапов модель передается владельцу чувствительных данных для дообучения в его контуре и на его данных. После этого модель возвращается разработчику. В зависимости от задач и данных различают вертикальное и горизонтальное федеративное обучение.
Плюсы такого подхода:
-
Можно обучать модели на закрытых данных, не показывая их посторонним. Это используется для обучения рекомендательных систем, моделей оценки кредитных рисков, медицинских информационных систем и т. д.
-
У каждого участника процесса есть возможность получить модель, обученную в том числе на данных других участников.
Но и без минусов не обходится:
-
Процесс организационно сложный, требует координации усилий разных участников.
-
При неправильной организации процесса федеративного обучения могут возникать риски утечки данных, в том числе через веса обученной модели.
Тема настолько сложная и объемная, что тянет на отдельную статью. Дайте знать в комментах, если она вам интересна — расскажу подробнее.
Увеличение сложности моделей
В настоящее время наиболее активно развиваются архитектуры трансформеров, генеративные и диффузионные модели. При этом развитие идет в сторону увеличения числа параметров и размеров обучающих датасетов, а оптимизация архитектуры моделей и новые интерпретации данных (включая переразметку и очистку датасетов от ошибок) все еще ждут своего часа.
Увеличение числа слоев и нейронов в каждом слое в целом ведет к повышению точности работы через увеличение объема данных, которые может запомнить и осмыслить нейронная сеть. Практика показала, что этот путь не дает 100% точности модели.
Увеличение числа параметров. Для «интеллекта» нейронной сети, важнее не количество нейронов, а количество связей между ними. Связь между количеством нейронов N, параметрами сети P и связями L можно записать в виде выражения L = P + N.
Логика этой формулы очень проста: количество входных связей равно числу весов, количество выходных связей — числу смещений. На вход каждого нейрона сети подаются сигналы, которые умножаются на веса нейрона, добавляется смещение (bias), к результату применяется функция активации, результат передается дальше. Итак, количество параметров в нейронной сети равно сумме всех весов и всех смещений. Это определяет сложность модели и ее способность к обучению. Казалось бы — проблема решена, просто увеличиваем количество параметров и наслаждаемся результатом, но у этого, как и у всего, есть цена.
Во-первых, увеличение количества параметров требует больше вычислительных ресурсов. В некоторых случаях это настолько увеличивает стоимость и сложность обучения, что процесс теряет экономический смысл. Во-вторых, процесс не гарантирует 100% точности. Именно поэтому и возникает потребность в новых архитектурах сетей и алгоритмах.
Генерация новых данных
Новые данные появляются непрерывно: онлайн-издания выпускают новые статьи, в публичный доступ выкладываются новые презентации с разнообразных конференций, множатся стримы и видеосервисы. В последнее время и сами нейронные сети начали генерировать огромный объем текстов, картинок, видео. Весь корпус новых данных можно разметить и дообучить на нем будущие модели. Но, как водится, есть нюанс…
Давайте попробуем оценить, насколько много данных рождается каждый год. По прогнозам IDC и Seagate в 2025 году будет сгенерировано примерно 30 ZB новых данных, которые в теории можно использовать для обучения. Это несколько терабайт на каждого жителя планеты и равносильно ежедневному 12-часовому стриму индивидуальному для каждого человека. Разметить такой объем данных можно только автоматически, получая при этом новые синтетически сгенерированные данные.
Синтетические данные и аугментация
Данные как мыши в мультике про Простоквашино: если их нет, их надо завести.
Синтетические данные — это те, что сгенерированы нейросетями, включая картинки, видео, тексты, выдуманные данные пользователей и т. д. Одновременно с этим существует другой способ искусственного создания данных: внесение изменений в существующие данные. Результат при этом сохраняет правдоподобие, такой процесс называется аугментацией. Существенная разница между синтетическими данными и аугментацией в том, что во втором случае все-таки сохраняется контакт с реальностью.
Пример аугментации: зеркально отображаем картинку с котиком, искажаем цвет глаз или выкручиваем контрастность. Такие изображения эффективно используются для обучения моделей, поскольку как бы котика не потрепала жизнь, он все еще остается котиком.
А вот с синтетическими данными работать нужно очень аккуратно, ведь модель не может определить сама, когда она ошибается, и последующее использование полученных результатов работы такой модели влечет катастрофическое накопление ошибок. Для желающих погрузиться в детали есть недавняя статья в Nature. Экспериментаторы раз за разом обучали модель на сгенерированных данных, в итоге случилось то, что они назвали коллапсом модели. К таким же результатам приходит другой автор.
Синтетические данные можно и нужно использовать эффективно. Ярчайшим успехом на этом фронте является вычислительное решение задачи свертывания белков, отмеченное Нобелевским комитетом, про которое я уже подробно писал. В этой работе авторы генерировали синтетический датасет, контролируемо используя только одну итерацию синтеза.
Выводы
Несмотря на исчерпание источников доступных данных, возможностей для развития нейросетей еще очень много. Наилучших результатов можно добиться, комбинируя различные методы. При этом работа с новыми архитектурами нейронных сетей и является тем, что, скорее всего, принесет наибольшую отдачу исследователям.