Ученые создали «компас» для оценки объема данных, необходимого для обучения ИИ

Исследовательская группа Московского физико-технического института представила два инновационных подхода к одной из центральных задач машинного обучения — определению оптимального объёма обучающей выборки. В работе, опубликованной в журнале Computational Management Science, учёные предложили оценивать, как добавление или удаление одного образца влияет на «уверенность» модели в собственных параметрах, применяя для этого два разных математических показателя.

Машинное обучение и искусственный интеллект сегодня трансформируют медицину, финансы, транспорт и многие другие отрасли. Эффективность алгоритмов напрямую зависит от объёма и качества исходных данных: чем они богаче, тем точнее прогнозы. Однако сбор, разметка и обработка данных — дорогостоящие и трудоёмкие процессы, а обучение сложных моделей на больших массивах требует значительных вычислительных ресурсов.

В связи с этим исследователи и практики сталкиваются с вечным вопросом: каков минимально достаточный размер выборки? При недостаточном числе примеров модель рискует стать нестабильной и плохо обобщающей, а избыточные данные приводят лишь к увеличению затрат без заметного прироста качества. Найти «золотой стандарт» — значит сбалансировать необходимую информативность и экономию ресурсов.

За последние десятилетия было предложено множество методик, но многие из них либо не подкреплены строгими теоретическими обоснованиями в общем случае, либо ограничены специфическими допущениями, либо сложны в практической реализации. Оставалась потребность в универсальных, доказательно корректных и одновременно удобных инструментах оценки достаточности данных с точки зрения стабильности модели.

Никита Киселёв и Андрей Грабовой из МФТИ пошли на нетривиальный шаг: они предложили оценивать достаточность выборки через устойчивость апостериорного распределения параметров при добавлении или удалении одного наблюдения. Если данные уже исчерпывают информационный потенциал, то такое небольшое изменение не должно существенно изменять «убеждения» модели.

В математической формулировке апостериорное распределение отражает вероятность различных значений параметров после анализа наблюдений. Авторы сосредоточились на сравнении апостериорных распределений pk(w) (на выборке из k объектов) и pk+1(w) (на выборке из k+1 объекта). Если мера их различия стабилизируется при росте k, можно считать, что достигнут достаточный объём выборки.

Для оценки близости распределений предложены два показателя:

  • Дивергенция Кульбака–Лейблера (KL) — информационная мера, оценивающая потери при замене одного распределения другим.
  • s-score — функция сходства из диссертации Александра Адуенко, измеряющая степень перекрытия двух распредлений: от 0 (без перекрытия) до 1 (полное совпадение).
Ученые создали «компас» для оценки объема данных, необходимого для обучения ИИ
Рисунок 1. С увеличением объёма выборки KL-дивергенция между соседними апостериорными распределениями стремится к нулю. Источник: GitHub — kisnikser/Posterior-Distributions-Proximity

В теории авторы доказали, что при нормальном апостериорном распределении KL-дивергенция действительно стремится к нулю, а s-score — к единице, если матрица ковариации распределений сходится при увеличении размера выборки. Особый случай линейной регрессии с нормальным априори полностью подтверждает эти утверждения при достаточно мягких предпосылках.

Сходимость KL и s-score на синтетических данных
Рисунок 2. Синтетический регрессионный набор: слева — KL-дивергенция, стремящаяся к нулю; справа — s-score, приближающийся к единице. Источник: Computational Management Science
Сходимость показателей на реальных данных
Рисунок 3. Набор данных «Liver Disorders»: слева — KL-дивергенция, справа — s-score. Источник: Computational Management Science

В экспериментальной части оба показателя протестировали на реальных наборах (Boston, Diabetes, Forestfires, Servo) и сравнили с девятью альтернативными методиками при пороге ε=0.05. Результаты показали, что:

  • KL-дивергенция демонстрирует более консервативную оценку, требуя большего числа примеров.
  • s-score склонен давать оптимистичный прогноз, фиксируя достаточность данных при меньших объёмах.

«Вопрос ‘хватит ли данных?’ определяет стоимость и сроки разработки моделей, — отмечает доцент кафедры интеллектуальных систем МФТИ Андрей Грабовой. — Мы предлагаем отслеживать стабильность апостериорных «знаний» модели: если один новый пример почти не влияет на её представления о мире, пора завершать сбор данных. KL-дивергенция и s-score дают два разных взгляда на эту стабильность: более строгий и более гибкий».

«Наши методы — практичные инструменты для планирования и мониторинга процесса сбора данных, — добавляет студент 5-го курса Никита Киселёв. — Выбор между ними позволяет адаптировать стратегию под желаемый уровень осторожности».

Понимание пределов достаточности данных существенно экономит ресурсы на всех этапах разработки ИИ-систем: от приобретения и разметки данных до обучения моделей. Новые методы МФТИ могут стать стандартом при принятии решений о продолжительности и объёмах сбора обучающих примеров.

 

Источник

Читайте также