Учёные МФТИ подсчитали объём данных, необходимый для ИИ

Ключевой вызов при разработке качественных моделей машинного обучения заключается в нахождении оптимального объема данных для обучения: при недостаточном объеме прогнозы теряют точность, а избыточные данные приводят к неоправданным расходам времени и вычислительных ресурсов.

Группа исследователей Московского физико-технического института предложила два инновационных подхода, основанных на анализе функции правдоподобия с применением метода бутстрэпа. Результаты работы опубликованы в журнале Computational Mathematics and Mathematical Physics.

Функция правдоподобия отражает вероятность наблюдаемых данных при заданных параметрах модели. В машинном обучении обычно ищут параметры, максимизирующие эту функцию (или её логарифм – логарифмическую функцию правдоподобия), что позволяет получить наиболее адекватную модель.

Вопрос «сколько данных достаточно?» неизменен с первых шагов машинного обучения. Ответ на него определяет качество предсказаний, способность модели обобщать информацию и эффективно работать на новых данных, а также экономическую обоснованность проекта.

Существующие методы оценки достаточной выборки можно разделить на три группы:

  • Классические статистические критерии, основанные на проверке гипотез с помощью статистик Лагранжа, отношения правдоподобия или Вальда. Они требуют строгих предположений о распределении данных и часто привязаны к конкретным гипотезам.
  • Байесовские методы, где размер выборки оптимизируется через максимизацию ожидаемой полезности модели с учётом штрафов за увеличение объёма данных. Эти подходы гибки, но сложны в реализации и требуют задания априорных распределений.
  • Эвристические правила, включая эмпирические «10 объектов на переменную» или кросс-валидацию. Они просты, но не имеют жёсткого теоретического обоснования и не всегда обеспечивают оптимальный результат.

Несмотря на разнообразие техник, отсутствует универсальный и одновременно простой метод для широкого круга задач. Существующие подходы либо слишком громоздки, либо требуют априорных допущений, нередко недоступных на этапе планирования эксперимента.

Учёные МФТИ предложили решение: если объём данных уже достаточен, добавление дополнительных точек не должно существенно менять параметры модели и значения функции правдоподобия. Исследователи разработали критерии, оценивающие стабильность и динамику функции правдоподобия при наращивании обучающей подвыборки.

Два предложенных критерия основаны на бутстрэпе, позволяющем многократно формировать псевдовыборки размера k из исходного набора объёмом m:

  • D-достаточность (от «дисперсия»). Критерий проверяет степень разброса значений функции правдоподобия на различных бутстрэп-подвыборках одного размера. Если вариативность мала, выборку считают достаточной.
  • M-достаточность (от «математическое ожидание»). Оценивает, насколько среднее значение функции правдоподобия изменяется при добавлении одной дополнительной точки данных. При незначительном приросте выборка считается завершённой.

Бутстрэп позволяет надёжно оценить стабильность и улучшение модели: многократное случайное извлечение объектов из исходного набора с возвращением формирует ряд «псевдовыборок», на которых анализируют интересующие статистики.

Важное теоретическое достижение – доказательство корректности M-критерия для линейной регрессии при определённых условиях сходимости оценок, что придаёт методу дополнительную строгость для этого класса моделей.

Исследователи протестировали оба подхода на синтетических наборах (линейная и логистическая регрессии) и на реальных данных (включая «Liver Disorders» и другие).

Эксперименты подтвердили эффективность методов. На практике их можно применять даже при оптимизации произвольных функций потерь, не ограничиваясь максимизацией правдоподобия.

Учёные МФТИ подсчитали объём данных, необходимый для ИИ
Рисунок 1. Зависимость достаточного объёма выборки от порогового значения ε для трёх наборов данных: синтетическая регрессия, синтетическая классификация и заболевания печени. Увеличение ε позволяет снизить число необходимых объектов. Источник: Computational Mathematics and Mathematical Physics.

Методы универсальны и применимы к различным типам моделей (регрессия, классификация) и областям: от медицинских исследований (определение числа пациентов для клинических испытаний) до финансового анализа (объём исторических данных для скоринга или детекции мошенничества), социологии, маркетинга, промышленности, биоинформатики и разработки систем ИИ.

«Определение оптимального объёма данных — это баланс между затратами на сбор информации и качеством модели, — поясняет доцент кафедры интеллектуальных систем МФТИ Андрей Грабовой. — Наш подход основан на оценке «устаканивания» функции правдоподобия с ростом объёма данных с помощью бутстрэпа. Эксперименты показывают устойчивую сходимость критериев D- и M-достаточности, что позволяет увереннее планировать эксперименты и эффективно использовать ресурсы».

«Наблюдение за стабилизацией функции правдоподобия при достижении определённого размера выборки вдохновило нас на теоретический анализ», — добавляет студент 5-го курса МФТИ Никита Киселёв. «Хотя для современных нейронных сетей мы разрабатываем ещё более выразительные методы, представленные в будущих публикациях, предложенные критерии уже показали высокую практическую ценность».

Работа открывает перспективы для дальнейшего исследования: углублённый анализ корректности методов, изучение других метрик стабильности, разработка новых алгоритмов и сравнение с существующими, а также исследование влияния порога ε и числа бутстрэп-подвыборок на эффективность.

Ссылка на статью: A. V. Grabovoy, N. S. Kiselev. Sample Size Determination: Likelihood Bootstrapping, Computational Mathematics and Mathematical Physics, 2025, 65(2):416–423. DOI: 10.1134/S0965542524702002

 

Источник

Читайте также