Учёные МФТИ впервые подробно исследовали, как меняется ландшафт функции потерь нейронной сети по мере поступления новых данных и при каком объёме выборки он «устаканивается». Комбинируя строгие математические выкладки с масштабными экспериментами, они показали, что при росте размера обучающего множества этот многомерный «рельеф» стремится к определённой форме, что даёт ключ к оценке необходимого количества данных. Результаты опубликованы в Doklady Mathematics.
Нейронные сети — краеугольный камень современных AI-систем: от распознавания лиц в смартфонах до автономных автомобилей и помощи врачам при диагностике. Эти сложные алгоритмы, вдохновлённые нейробиологией, «учатся» на огромных массивах образцов, подбирая параметры так, чтобы минимизировать ошибки в прогнозах.
Центральный инструмент здесь — функция потерь, измеряющая среднюю погрешность модели. Представим её как горный ландшафт в пространстве всех параметров: каждая точка соответствует конкретному набору весовых коэффициентов, а высота — величине потерь. Поиск оптимальных весов превращается в задачу спуска к «дну» этого рельефа.
Однако реальный рельеф функции потерь чрезвычайно сложен — сотни тысяч «локальных впадин» и лишь несколько «глобальных минимумов». Выбрать хорошую долину, гарантирующую качественную обобщающую способность, — нелёгкая задача.
Геометрию ландшафта обычно изучают через матрицу Гессе, состоящую из вторых производных функции потерь. Спектральный анализ этой матрицы показывает: подавляющее большинство её собственных значений близки к нулю, но встречаются и «стеснённые» направления с большими кривизнами — области резкого роста ошибок.
До недавнего времени в фокусе исследований оставалась «статическая» геометрия при фиксированном наборе данных. Мало кто задавался вопросом, как «рельеф» эволюционирует, когда мы постепенно добавляем новые образцы. Именно эту динамику и изучили авторы статьи.

Учёные поставили задачу: измерить, насколько отличается значение функции потерь в окрестности найденного минимума при добавлении единственного нового примера к выборке из k объектов. Сначала они обучали сеть на всём доступном корпусе, затем брали случайные подмножества разной мощности, в каждое из которых поочерёдно включали по одному объекту и фиксировали среднее изменение потерь. Эксперименты проводились как с «сырыми» пикселями, так и с признаками, извлечёнными предобученной моделью.
И теоретические выкладки, и данные экспериментов согласуются: при увеличении k разница между средним значением потерь для выборок из k и k+1 объектов стремится к нулю с величиной порядка O(1/k). Более того, аналитические оценки показали, что большее число слоёв L замедляет сходимость (экспоненциальная зависимость), тогда как влияние ширины слоёв h сложно и зависит от фактических констант, связанных с величинами весов.
В опытах по всем наборам данных и архитектурам чётко прослеживалось уменьшение ΔLoss при росте размера обучающей выборки, причём наращивание слоёв немного замедляло стабилизацию, а расширение слоёв, вопреки грубым оценкам, ускоряло её.
Авторы объясняют это тем, что для простых задач классификации более широкие сети достигают более низких значений потерь, а практические ограничения на веса оказываются достаточно жёсткими, чтобы обеспечить быстрое «успокоение» ландшафта. Замечено, что эффект проявляется как для сырого ввода, так и для предобработанных признаков.
«Мы привыкли считать ландшафт функции потерь статичным для фиксированного датасета, — говорит доц. Андрей Грабовой (МФТИ). — Наше исследование демонстрирует его динамичность: по мере того как сеть «видит» всё больше образцов, рельеф «успокаивается» и перестаёт существенно меняться. Это открывает путь к методам, которые позволят определить, когда объём данных для данной задачи и архитектуры становится достаточным».
«Мы впервые системно рассмотрели влияние размера выборки на геометрию ландшафта потерь, — добавляет Никита Киселев, студент МФТИ. — Предыдущие работы либо изучали статичную картину, либо динамику оптимизации по итерациям, но не эволюцию самого рельефа при росте данных. Мы дали математические оценки скорости сходимости и подтвердили их на практике».
Практический смысл открытий очевиден: на основе отслеживания стабилизации ландшафта можно автоматически определять, когда дальнейшее пополнение данных уже не даёт заметного выигрыша. Это позволит экономить ресурсы на сбор, разметку и вычисления.
Менее очевидное, но не менее важное применение — разработка более эффективных вычислительных схем и адаптивных алгоритмов обучения, учитывающих динамику изменения рельефа потерь.
Источник: Kiselev, N.S., Grabovoy, A.V. Unraveling the Hessian: A Key to Smooth Convergence in Loss Function Landscapes. Dokl. Math. 110 (Suppl 1), S49–S61 (2024). doi:10.1134/S1064562424601987



