Ключевой вызов при разработке качественных моделей машинного обучения заключается в нахождении оптимального объема данных для обучения: при недостаточном объеме прогнозы теряют точность, а избыточные данные приводят к неоправданным расходам времени и вычислительных ресурсов.
Группа исследователей Московского физико-технического института предложила два инновационных подхода, основанных на анализе функции правдоподобия с применением метода бутстрэпа. Результаты работы опубликованы в журнале Computational Mathematics and Mathematical Physics.
Функция правдоподобия отражает вероятность наблюдаемых данных при заданных параметрах модели. В машинном обучении обычно ищут параметры, максимизирующие эту функцию (или её логарифм – логарифмическую функцию правдоподобия), что позволяет получить наиболее адекватную модель.
Вопрос «сколько данных достаточно?» неизменен с первых шагов машинного обучения. Ответ на него определяет качество предсказаний, способность модели обобщать информацию и эффективно работать на новых данных, а также экономическую обоснованность проекта.
Существующие методы оценки достаточной выборки можно разделить на три группы:
- Классические статистические критерии, основанные на проверке гипотез с помощью статистик Лагранжа, отношения правдоподобия или Вальда. Они требуют строгих предположений о распределении данных и часто привязаны к конкретным гипотезам.
- Байесовские методы, где размер выборки оптимизируется через максимизацию ожидаемой полезности модели с учётом штрафов за увеличение объёма данных. Эти подходы гибки, но сложны в реализации и требуют задания априорных распределений.
- Эвристические правила, включая эмпирические «10 объектов на переменную» или кросс-валидацию. Они просты, но не имеют жёсткого теоретического обоснования и не всегда обеспечивают оптимальный результат.
Несмотря на разнообразие техник, отсутствует универсальный и одновременно простой метод для широкого круга задач. Существующие подходы либо слишком громоздки, либо требуют априорных допущений, нередко недоступных на этапе планирования эксперимента.
Учёные МФТИ предложили решение: если объём данных уже достаточен, добавление дополнительных точек не должно существенно менять параметры модели и значения функции правдоподобия. Исследователи разработали критерии, оценивающие стабильность и динамику функции правдоподобия при наращивании обучающей подвыборки.
Два предложенных критерия основаны на бутстрэпе, позволяющем многократно формировать псевдовыборки размера k из исходного набора объёмом m:
- D-достаточность (от «дисперсия»). Критерий проверяет степень разброса значений функции правдоподобия на различных бутстрэп-подвыборках одного размера. Если вариативность мала, выборку считают достаточной.
- M-достаточность (от «математическое ожидание»). Оценивает, насколько среднее значение функции правдоподобия изменяется при добавлении одной дополнительной точки данных. При незначительном приросте выборка считается завершённой.
Бутстрэп позволяет надёжно оценить стабильность и улучшение модели: многократное случайное извлечение объектов из исходного набора с возвращением формирует ряд «псевдовыборок», на которых анализируют интересующие статистики.
Важное теоретическое достижение – доказательство корректности M-критерия для линейной регрессии при определённых условиях сходимости оценок, что придаёт методу дополнительную строгость для этого класса моделей.
Исследователи протестировали оба подхода на синтетических наборах (линейная и логистическая регрессии) и на реальных данных (включая «Liver Disorders» и другие).
Эксперименты подтвердили эффективность методов. На практике их можно применять даже при оптимизации произвольных функций потерь, не ограничиваясь максимизацией правдоподобия.

Методы универсальны и применимы к различным типам моделей (регрессия, классификация) и областям: от медицинских исследований (определение числа пациентов для клинических испытаний) до финансового анализа (объём исторических данных для скоринга или детекции мошенничества), социологии, маркетинга, промышленности, биоинформатики и разработки систем ИИ.
«Определение оптимального объёма данных — это баланс между затратами на сбор информации и качеством модели, — поясняет доцент кафедры интеллектуальных систем МФТИ Андрей Грабовой. — Наш подход основан на оценке «устаканивания» функции правдоподобия с ростом объёма данных с помощью бутстрэпа. Эксперименты показывают устойчивую сходимость критериев D- и M-достаточности, что позволяет увереннее планировать эксперименты и эффективно использовать ресурсы».
«Наблюдение за стабилизацией функции правдоподобия при достижении определённого размера выборки вдохновило нас на теоретический анализ», — добавляет студент 5-го курса МФТИ Никита Киселёв. «Хотя для современных нейронных сетей мы разрабатываем ещё более выразительные методы, представленные в будущих публикациях, предложенные критерии уже показали высокую практическую ценность».
Работа открывает перспективы для дальнейшего исследования: углублённый анализ корректности методов, изучение других метрик стабильности, разработка новых алгоритмов и сравнение с существующими, а также исследование влияния порога ε и числа бутстрэп-подвыборок на эффективность.
Ссылка на статью: A. V. Grabovoy, N. S. Kiselev. Sample Size Determination: Likelihood Bootstrapping, Computational Mathematics and Mathematical Physics, 2025, 65(2):416–423. DOI: 10.1134/S0965542524702002



