Китай действительно удивляет: представлена нейросеть OmniHuman-1, создающая реалистичные видео из фотографий

Компания ByteDance создала искусственный интеллект, способный преобразовывать изображения в удивительно реалистичные видеоматериалы.

Этот инновационный ИИ, названный OmniHuman, генерирует видеоролики в полный рост, где человек совершает движения и жестикуляции в соответствии с произнесенной речью. Это значительно превосходит предыдущие версии ИИ, которые могли анимировать лишь лица или верхние части тела.


Китай и правда понесло: представлена нейросеть OmniHuman, которая создаёт максимально живые видео по фотографиям
Кадр из видео

«В области анимации людей произошло значительное развитие в последние годы, — отметили в ByteDance. — Тем не менее, актуальные решения сталкиваются с трудностями при масштабировании до уровня всеобъемлющих моделей, что сдерживает их применение на практике».

Инженеры обучили OmniHuman более чем на 18 700 часах видеоматериалов с участием людей, воспользовавшись новым методом, включающим в учебный процесс разнообразные входные данные: текст, аудиосигналы и двигательные паттерны. Этот подход под названием «всеобщие условия» даёт возможность ИИ обучаться на более разнообразных и обширных наборах данных по сравнению с предыдущими методами.

«Наша ключевая идея состоит в том, что внедрение в обучение множественных сигналов, таких как текст, звук и поза, может существенно сократить потери данных», — пояснили исследователи.

Тестирование показало, что OmniHuman превосходит имеющиеся системы по нескольким критериям. Около большого количества примеров можно узнать здесь.

Также стоит отметить, что недавно китайская корпорация Alibaba выпустила обновлённую версию своей ИИ-модели Qwen 2.5-Max, о которой представители уверенно заявляют, что она превосходит добро зарекомендуюшую себя модель DeepSeek-V3. DeepSeek в свою очередь объявила о запуске обновленной ИИ-модели Janus-Pro-7B.

 

Источник: iXBT

Читайте также