Шесть векторов развития LLM: почему дефицит данных — это миф

2 Фев в 21:08

Краткая суть

Тезис «данные для обучения закончились» касается лишь одной из шести осей развития искусственного интеллекта. Остальные пять продолжают стремительно расти. Одномерные прогнозы о «потолке» ИИ — это фундаментальное заблуждение.

В чём корень проблемы

В любом профессиональном сообществе сегодня можно услышать: «Архитектура исчерпана», «Модели скоро начнут деградировать», «Мы выжали из текстов всё». Это звучит экспертно, но на деле является глубоким заблуждением.

Причина не в отсутствии компетенций у авторов этих высказываний, а в узком горизонте планирования. Они фокусируются исключительно на одной плоскости — обучении с учителем (supervised pre-training) на массивах интернет-текстов — и ошибочно принимают её за весь потенциал ИИ. Если эта ось упёрлась в лимит, это не значит, что развитие остановилось.

Ловушка линейного мышления

Вспомните 2012 год. Тогда скептики утверждали: «Мы собрали все доступные фото котиков, нейросети достигли предела». С точки зрения тогдашней парадигмы это было правдой, но как долгосрочный прогноз — полным провалом. Появление AlexNet перевернуло игру.

Сегодня ситуация повторяется. «Дефицит данных» означает лишь нехватку качественных текстов для классического пре-трейнинга. Это факт, но это лишь один вектор из шести.

Вектор 1: Масштабирование данных (Data Scaling)

Законы масштабирования Каплана (2020) гласили: больше данных и больше вычислений дают лучший результат. Формула работала безупречно, пока мы не столкнулись с реальностью:

Объём качественного текста в сети оценивается в 15–20 трлн токенов.
Большая часть этого массива уже освоена моделями.
Наблюдается эффект убывающей отдачи.

Означает ли это тупик? Нет. Масштабирование данных трансформируется:

Синтетическая генерация: модели создают данные для обучения других моделей.
Мультимодальность: видео, аудио и сенсорные потоки содержат триллионы еще не тронутых токенов.
Нишевые корпуса: глубокие пласты научной, юридической и медицинской информации, недоступные в открытом интернете.

Вектор 2: Вычислительная мощность (Compute Scaling)

Многие воспринимают compute scaling как нечто монолитное, но здесь скрыты две разные механики.

Вычисления при обучении (Pre-training compute)

Это классический путь: больше GPU, больше миллиардов долларов в инфраструктуру. Здесь действительно виден экономический и физический барьер.

Вычисления при выводе (Inference-time compute)

Это технологический прорыв последних лет, который многие упустили из виду. Вместо того чтобы делать модель «умнее» на этапе создания, ей дают возможность «подумать» в момент ответа. Модели серии o1 от OpenAI доказали: бюджет на рассуждения (reasoning) дает прирост в 30–50% на сложных задачах без изменения весов самой нейросети. Это переход от «зубрёжки формул» к «способности размышлять».

Вектор 3: Алгоритмическая эффективность

Каждый год инженеры учат модели делать больше, используя меньше ресурсов. Эволюция архитектур говорит сама за себя:

2017: Transformer заменил RNN, обеспечив параллелизацию.
2022: FlashAttention ускорил работу в 2–4 раза без потери качества.
2023: Mixture of Experts (MoE) позволил масштабировать параметры без линейного роста затрат на вычисления.

Впереди — модели на основе State Space Models (Mamba) и гибридные архитектуры, которые решают проблему обработки сверхдлинных контекстов. Эмпирически доказано: каждые два года архитектурные улучшения эквивалентны трехкратному росту вычислительной мощности.

Вектор 4: Новые модальности

Современные LLM — это «текстоцентричные» системы. Но текст — лишь верхушка информационного айсберга.

Модальность	Объём ресурсов	Статус освоения
Текст	~20 трлн токенов	Почти исчерпан
Изображения	~1 трлн+ единиц	Активная фаза
Видео	Эксабайты данных	Начальный этап
Сенсорика / IoT	Бесконечно	Почти не начато

Будущее за embodied AI (воплощенным интеллектом), где модели учатся через взаимодействие с физической или симулированной реальностью, получая опыт, который невозможно извлечь из Википедии.

Вектор 5: Агенты и использование инструментов

Статическая база знаний в весах модели — это тупиковый путь. Она быстро устаревает и склонна к галлюцинациям. Решение — Tool Use (использование инструментов).

ИИ больше не обязан «знать» всё. Он должен уметь:

Использовать поиск для получения свежих фактов.
Запускать код для точных вычислений.
Обращаться к API внешних сервисов и баз данных.

Агентные системы, способные декомпозировать задачу и проверять свои действия, создают измерение возможностей, которое никак не зависит от «сырого» объёма данных обучения.

Вектор 6: Обучение с подкреплением (RL) и Self-Play

Человеческие данные (тексты, написанные людьми) перестают быть единственным источником прогресса. DeepSeek-R1 наглядно продемонстрировал, что модель может совершенствовать свои навыки рассуждения через внутреннюю генерацию и фильтрацию цепочек мыслей. Это сигнал, идущий из логики самой задачи, а не из копирования человеческих ответов.

Как анализировать новости об ИИ

Когда вы слышите очередной прогноз, попробуйте понять, о какой оси идет речь:

«Данные заканчиваются» — это касается только Вектора 1.
«Новая модель в 10 раз быстрее при том же качестве» — Вектор 3.
«ИИ научился управлять браузером» — Вектор 5.

Тревожные знаки в аналитике: использование терминов «потолок» или «тупик» без уточнения конкретной оси развития. Линейная экстраполяция текущих проблем на все сферы ИИ — признак некомпетентности.

Заключение

Проблема экспертных прогнозов в том, что люди, работающие внутри индустрии, часто страдают от «проклятия знаний». Они видят микроскопические препятствия в своей области, но не замечают тектонических сдвигов в соседних. Все предыдущие «потолки» ИИ (2020, 2022 гг.) были успешно пробиты.

Вместо того чтобы ждать внезапного появления AGI или, наоборот, предрекать «зиму», следите за прогрессом по каждой из шести осей. Развитие ИИ будет нелинейным, непредсказуемым и, скорее всего, гораздо более масштабным, чем кажется пессимистам.

Источник