Видеокарты, обладающие менее чем 8 ГБ видеопамяти, постепенно утрачивают свою значимость в игровой индустрии, однако нашли новое применение в работе с нейросетями.

Разработчик Люмин Чжан, работая совместно с Манишем Агравалой из Стэнфордского университета, предложили архитектуру под названием FramePack. FramePack предоставила новую методику диффузии видео, используя фиксированную длину временного контекста для более производительной обработки, что позволяет создавать более продолжительные и качественные видеоматериалы. Эта модель, состоящая из 13 миллиардов параметров, в состоянии создавать 60-секундные видеоклипы, используя всего 6 ГБ видеопамяти.
Стандартные модели диффузионной обработки используют ранее сгенерированные кадры для предсказания следующего, содержащего меньше шума. Количество предыдущих кадров, использованных для предсказания, называется длиной временного контекста и увеличивается с размером видео. Обычные диффузионные модели для видео требуют как минимум 12 ГБ видеопамяти, исключая возможности использования их на картах с 8 ГБ. Новая модель способна работать на таких видеокартах, как RTX 2060 или даже GTX 1060, но требует устройства не ниже RTX 30-й серии. В современных сериях видеокарт мало моделей с видеопамятью менее 8 ГБ, но они все же существуют. Это, например, мобильные версии вроде RTX 3060 для ноутбуков или RTX 4050.
Источник: iXBT