Искусственный интеллект для роботов от Meta* освоил понимание физики окружающего мира

Meta* презентовала новейшую модель искусственного интеллекта V-JEPA 2, которая может значительно продвинуть развитие робототехники и оптимизировать автоматизацию физических процессов. В отличие от крупных языковых моделей (LLM), которые превосходно работают с текстовой информацией, V-JEPA 2 обладает «физическим здравым смыслом» и способна понимать и предугадывать результаты действий в динамичной окружающей среде. Это особенно актуально для таких сфер, как производство и логистика, где важно понимание причинно-следственных связей.

Модель обучается на базе видеоданных и физических взаимодействий, создавая «мировую модель» — внутреннюю симуляцию функционирования физического мира. Она опирается на три ключевых компонента: осмысление происходящего, прогноз изменений вследствие действия и планирование последовательности действий для достижения целей. Архитектура V-JEPA (Video Joint Embedding Predictive Architecture) включает две части: «кодировщик», обрабатывающий видео и создающий компактное численное представление, и «предиктор», который на основе этого представления предсказывает дальнейшее развитие событий.

Искусственный интеллект для роботов от Meta* освоил понимание физики окружающего мира
Иллюстрация: ChatGPT

В отличие от генеративных моделей ИИ, которые стремятся предсказать каждый пиксель будущего изображения, V-JEPA 2 работает в абстрактной плоскости, уделяя внимание ключевым характеристикам сцены, таким как положение и движение объектов, что значительно повышает её эффективность. Содержащая всего 1,2 миллиарда параметров, модель снижает вычислительные затраты, что делает её пригодной для практического использования.

Процесс обучения V-JEPA 2 проходит в два этапа. Сначала модель обучается без учителя на миллионах часов видеоматериалов, развивая базовое «понимание» физики мира. Затем её дополнительно обучают на небольшом специализированном наборе данных (62 часа взаимодействия робота), что позволяет связать действия с их физическими результатами. Это обеспечивает возможность планирования для роботов. Управляемый V-JEPA 2 робот способен работать в новых условиях и манипулировать незнакомыми объектами без дополнительного обучения.

Во время испытаний модель продемонстрировала эффективность от 65% до 80% при выполнении задач типа «возьми и поставь» в новых условиях с незнакомыми объектами. Это открывает огромные перспективы для бизнеса: создание более адаптируемых роботов для логистики и производства, разработка реалистичных цифровых двойников для имитации процессов и обучения других ИИ, а также прогнозирование потенциальных неисправностей в промышленном оборудовании на основе видеопотоков.

Для специалистов в компаниях V-JEPA 2 предлагает эффективный подход «обучи один раз, внедри повсеместно». Низкая стоимость обучения и компактность модели позволяют использовать её на обычных мощных графических процессорах, избегая облачных сервисов и связанных с ними сложностей. Это открывает новые пути для оптимизации затрат и ускорения процесса разработки роботизированных решений.

* Компания Meta (Facebook и Instagram) признана в России экстремистской и запрещена

 

Источник: iXBT

Читайте также