Исследователи из Калифорнийского университета в Беркли разработали продвинутую компьютерную архитектуру под названием RoVi-Aug, которая улучшает взаимодействие роботизированных данных и облегчает передачу навыков между роботами. Эта система применяет генеративные модели для дополнения визуальных данных и создания синтетических демонстраций задач с использованием различных типов камер для разных роботов.
Как пояснила команда разработчиков, возглавляемая учёными Лоуренсом Ченом (Lawrence Chen) и Чэньфэном Сю (Chenfeng Xu), цель их работы заключалась в устранении недостатков существующих алгоритмов, которые неспособны эффективно передавать навыки между роботами с разными корпусами и характеристиками. Они обратили внимание на то, что многие существующие обучающие наборы данных для роботов имеют несбалансированную структуру и содержат неточности, что может привести к переобучению определённых типов роботов.
«Достижения современных систем машинного обучения, в том числе генеративных моделей, демонстрируют впечатляющую способность к обобщению, что вдохновляет исследователей робототехники на поиск подходов к достижению аналогичной обобщаемости в области робототехники», — отметили Чен и Сюй.
RoVi-Aug включает два основных компонента: модуль роботизированного дополнения (Ro-Aug) и модуль дополнения видовой точки (Vi-Aug). Первый компонент синтезирует демонстрационные данные для взаимодействия с различными роботизированными системами, в то время как второй создаёт демонстрации с различных углов обзора.
«Ro-Aug обладает двумя основными характеристиками: тщательно настроенной моделью SAM для сегментации робота и адаптированной ControlNet для замены одного робота другим. Между тем, Vi-Aug использует ZeroNVS, инновационную модель для генерации новых видов, создавая новые перспективы сцены, что делает модель более гибкой к различным углам обзора камеры», — объяснили Чен и Сюй.
Используя эту структуру, исследователи создали дополненный набор данных для роботов и подтвердили его эффективность в обучении политик и передаче навыков между разными роботами. Результаты исследования показали, что RoVi-Aug способствует разработке политик, которые более универсально применимы между различными роботами и конфигурациями камер.
«Основное нововведение заключается в применении генеративных моделей, таких как генерация изображений и создание новых видов, к задачам перекрёстного обучения роботов», — пояснили Чен и Сюй.
Эта работа может стать толчком для развития робототехники, способствуя более простому расширению набора навыков систем. В будущем её смогут использовать другие группы для обмена навыками между разнообразными роботами или создания более универсальных и эффективных роботизированных политик.
Например, представьте, что исследователь потратил значительные ресурсы на сбор данных и обучение робота Franka навыкам выполнения задачи, но у него есть только робот UR5. RoVi-Aug позволяет использовать данные от Franka и применить политику к роботу UR5 без необходимости в дополнительном обучении. Это особенно важно, поскольку роботизированные политики могут быть чувствительны к изменениям углов обзора камеры, а настройка одинаковых углов для различных роботов часто сложна. RoVi-Aug помогает избежать таких точных настроек.
Лоуренс Чен, Чэньфэн Сю
По мнению авторов, RoVi-Aug может стать экономически эффективным методом для создания надёжных обучающих наборов данных. Они также подчеркнули, что их методология может быть адаптирована и для других наборов данных роботов. В планах дальнейшего развития RoVi-Aug — переход от генерации изображений к созданию видеоданных.
«Мы намерены также применить RoVi-Aug к существующим наборам данных, например, к Open-X Embodiment (OXE), с надеждой на повышение производительности универсальных роботизированных политик. Расширение возможностей RoVi-Aug значительно увеличит адаптивность и надёжность этих политик для более широкой палитры роботов и задач», — подвели итог исследователи.
Источник: iXBT