Группа исследователей из OpenAI представила инновационную модель непрерывной временной согласованности (sCM), которая способна создавать видео в 50 раз быстрее, чем существующие аналоги. Эту новаторскую разработку впервые представили в статье, размещенной на арXиве, и рассказали о ней в публикации на официальном сайте компании.
Разработка Чэн Лу и Яна Сунга представляет собой новый вид генеративной модели, использующий диффузионные подходы для обучения систем ИИ. Такие модели часто состоят из трех ключевых аспектов: прямой и обратной процессов, а также процедуры выборки. Они активны в создании визуальных материалов, таких как видео и графика, и находят применение в других сферах, включая аудиопроизводство.
Обычные диффузионные модели требуют сотен шагов для получения конечного продукта, что может занимать несколько минут. В отличие от них, новая система от Лу и Сун всего за два шага обеспечивает очень быстрое создание видео, не теряя при этом в качестве.
При использовании более чем 1,5 миллиардов параметров, эта модель может сгенерировать видео за миллисекунды на компьютере, оборудованном единственным графическим процессором A100. Это делает ее примерно в 50 раз быстрее аналогичных существующих решений. Исследователи также отмечают, что их модель требует значительно меньших вычислительных ресурсов, решая тем самым одну из ключевых проблем в сфере ИИ.
Уже проведены тесты, которые сравнили полученные результаты с аналогичными моделями, как существующими на данный момент, так и находящимися в разработке.
«Наша модель представляет собой значительный прорыв в генеративных технологиях ИИ. Мы уверены, что она откроет пути к созданию реальных приложений на основе искусственного интеллекта, способных работать в режиме реального времени», — подчеркнули Чэн Лу и Ян Сунг.
Эта технология имеет огромные перспективы в различных сферах, включая аудиовизуальное производство и образовательные программы, а также в самой области искусственного интеллекта в целом. Быстрая генерация видео может значительно упростить процессы в таких отраслях, как кинопроизводство и реклама. Более низкое требование к вычислительным ресурсам делает данную модель более доступной для широкого круга пользователей.
Источник: iXBT