Команда Яндекса анонсировала бета-версию нейронной сети под названием YandexART (Vi), предназначенную для создания коротких видеороликов продолжительностью пять секунд. Как сообщили в пресс-службе компании, модель уже способна воспроизводить плавные движения объектов на видео, такие как бег собаки, падение листа или взрыв фейерверков.
Нейронную сеть могут использовать как обычные пользователи для создания уникальных анимированных заставок на телефон, так и блогеры, мультипликаторы и другие специалисты. YandexART (Vi) уже доступна в приложении «Шедеврум».
Компания презентовала предыдущую версию модели для генерации видео по текстовому описанию в августе прошлого года. Прежняя версия позволяла создавать анимации, где изменения касались преимущественно движения камеры, а не объектов. Кроме того, при генерации объекты могли значительно изменяться от кадра к кадру. Новая YandexART (Vi) способна воспроизводить более реалистичные движения и учитывать связь между кадрами — благодаря этому видеоролики выглядят более цельными и плавными. Для достижения этого результата нейросеть была обучена на видеоматериалах с движущимися объектами, такими как автомобили или крадущиеся кошки.
Нейросеть создает последовательность кадров, которые плавно сменяют друг друга, образуя цельное видео. Модель принимает на вход текстовое описание того, что должно происходить в кадре (например: «Носорог танцует хип-хоп в сумрачном лесу»), и генерирует изображение, с которого начинается анимация. Затем модель постепенно превращает цифровой шум в последовательность кадров, основываясь на этом изображении и текстовом запросе.
Источник: iXBT