Grok научился реалистично дополнять видео с сохранением исходного звука

Илон Маск поделился информацией об очередном апдейте нейросети Grok Imagine, ключевым нововведением которого стала возможность интеллектуального достраивания видеоряда.

Речь идет об инструменте расширения видео, где нейросеть не просто генерирует дополнительные кадры, а филигранно интегрирует их, опираясь как на изначальный промпт, так и на контекст уже созданного фрагмента.

Grok научился реалистично дополнять видео с сохранением исходного звука
Скриншот интерфейса Grok

Ключевое усовершенствование заключается в том, что алгоритм теперь проводит глубокий анализ видеоклипа в связке с текстовой инструкцией. Это обеспечивает высокую степень связности и логичности: визуальный стиль и звуковое сопровождение сохраняются, что решает распространенную проблему ранних ИИ-моделей, когда сгенерированные фрагменты зачастую выпадали из общего повествования.

Ранее компания xAI выпустила обновление Grok 4.3, сфокусированное на внедрении прикладных инструментов. Параллельно разработчики открыли доступ к API Grok Speech to Text (STT) — новому сервису для распознавания речи, поддерживающему 25 языков, включая русский.

Популярность платформы продолжает расти: сервис установил новый исторический рекорд посещаемости, преодолев отметку в 326 миллионов визитов за один только март.

 

Источник: iXBT

Читайте также