В начале октября вышла модель DIAMOND, работающая в режиме игрового движка. Она эмулирует карту Dust 2 в игре CS: GO. По сути модель состоит из двух частей: модели, которая учитывает состояние игрового мира и диффузионной модели, генерирующий следующий кадр на основе предыдущего + инпута с клавиатуры + мыши.
Проблема сжатия информации в моделях мира
Одна из главных проблем в построении моделей мира — это баланс между точностью и сжатием данных. Многие модели мира используют дискретные латентные переменные — это упрощенные представления, которые помогают моделировать окружающую среду без излишних затрат ресурсов. Такой подход улучшает стабильность, но жертвует мелкими деталями, которые иногда критичны для правильного поведения агента. Например, в играх или задачах с большим количеством объектов агент может «не заметить» важные детали, такие как расположение врага или препятствия.
DIAMOND берёт на себя задачу воспроизведения мира с высокой точностью, минимизируя потерю данных. Вместо того чтобы ограничивать агента сокращёнными представлениями, DIAMOND работает с полноразмерными изображениями, сохраняя важные визуальные элементы. Такой подход обеспечивает лучшее восприятие окружающей среды и более эффективное обучение, что особенно важно для сложных задач, где требуются точные реакции на мельчайшие изменения.
Диффузионные модели для генерации миров
В последние годы диффузионные модели стали одним из ведущих инструментов для генерации изображений. Их основная идея заключается в создании изображения через пошаговый процесс очищения шума. Сначала картинка становится полностью зашумленной, а затем постепенно очищается до итогового изображения. В итоге модель может восстанавливать образы с деталями.
DIAMOND использует эти возможности, чтобы избегать потерь при сжатии, свойственных другим моделям. Благодаря диффузионным процессам, DIAMOND может сохранять мелкие, но значимые детали, создавая более точное представление о среде. Это позволяет агенту лучше понимать мир и избегать ошибок.
Как работает DIAMOND
Чтобы добиться максимальной эффективности, DIAMOND использует EDM-подход (Elucidated Diffusion Model) вместо более привычного DDPM (Denoising Diffusion Probabilistic Model). Почему это важно? Дело в том, что EDM позволяет создавать изображения с меньшим количеством шагов, что делает процесс не только точным, но и быстрым.
DIAMOND работает на базе архитектуры U-Net, известной своей способностью генерировать изображения. Она принимает на вход данные о прошлых наблюдениях и действиях агента, добавляя их к зашумленному изображению и проводя через серию этапов восстановления, пока не получится финальное изображение.
Тестирование на Atari 100k
Чтобы проверить возможности DIAMOND, исследователи использовали бенчмарк Atari 100k, который включает 26 классических игр с различными типами задач. В условиях, когда агенту позволено всего 100 тысяч действий, DIAMOND показала рекордные результаты, достигнув 1.46 по Mean Human-Normalized Score — лучший показатель среди всех моделей, работающих с моделями миров.
Особенно заметно превосходство DIAMOND в играх, где критически важны визуальные детали, таких как Asterix и Road Runner. Умение точно воспроизводить даже мелкие объекты позволяет агенту принимать более информированные решения.
Эксперимент с Counter-Strike: Global Offensive
Одним из самых интересных экспериментов стал тест DIAMOND в среде Counter-Strike: Global Offensive. Команда использовала 87 часов данных, собранных на карте Dust II, чтобы обучить DIAMOND работать в сложной трёхмерной среде. Результаты показали, что модель способна генерировать последовательности из сотен кадров, при этом сохраняя стабильность и высокую точность. Однако при столкновении с редко встречающимися ситуациями, например, приближении к стенам или потере видимости, модель иногда забывает текущее состояние и генерирует новую область.
Несмотря на эти ограничения, DIAMOND демонстрирует впечатляющие результаты для трёхмерного моделирования. Если увеличить объём данных и ресурсы, можно ожидать, что качество и стабильность таких симуляций улучшатся, что открывает новые возможности для использования DIAMOND в реалистичных игровых мирах и других задачах, требующих высокой степени детализации.
Заключение
DIAMOND открывает перед ИИ-агентами новые возможности, позволяя им обучаться в виртуальных мирах с невиданной ранее точностью. Диффузионныйе модели сохраняют важные визуальные элементы и стабильно работают на длинных временных интервалах.
Если вам интересны такого рода посты, можете подписаться на мой telegram, там я пишу посты поменьше. В основном я затрагиваю темы применения математики (от базовой до нейросетей) в видеоиграх, но также уделяю внимание видеоиграм как области искусства..