Исследовательский институт Toyota (TRI) объявил о революционном подходе к генеративному искусственному интеллекту, позволяющем обучать роботов новым навыкам за несколько часов. Это может значительно повысить пользу от роботов и стать шагом к созданию «больших моделей поведения (LBM)» для роботов по аналогии с большими языковыми моделями (LLM), которые произвели настоящую революцию.
Предыдущие методы обучения роботов новому поведению были медленными, непоследовательными, неэффективными и часто ограничивались узкими задачами в ограниченных условиях. Робототехникам приходилось тратить много часов на написание сложного кода и/или использовать многочисленные циклы проб и ошибок для программирования поведения.
С новым подходом TRI уже научила роботов 60 сложным, требующим ловкости навыкам (переливание жидкостей, использование инструментов и манипуляциям с хрупкими объектами). Эти достижения были достигнуты без единой строчки нового кода; роботу просто предоставляли новые данные. Успех вдохновил TRI на новую амбициозную цель – обучить роботов сотням новых навыков к концу этого года и тысяче новых — к концу 2024 года.
Как работает обучение
Чтобы научить робота новому поведению, человек-оператор телеуправляет роботом, демонстрируя выполнение желаемой задачи. Обычно для этого требуется час или два, что соответствует 24-100 демонстрациям.
После того как будет собран набор демонстраций для определённого действия, робот учится выполнять это действие автономно. Ядром процесса является технология генеративного искусственного интеллекта под названием Diffusion, которая недавно штурмом захватила сферу создания изображений (DALL-E 2, Stable Diffusion). TRI и партнёры из университета в лаборатории профессора Сонга адаптировали эту технику в метод под названием Diffusion Policy, который напрямую генерирует поведение роботов. Вместо генерации изображений, основанных на естественном языке, происходит генерация действий робота, основанная на показаниях датчиков и, возможно, естественном языке.
Использование диффузии для генерации поведения робота даёт три ключевых преимущества по сравнению с предыдущими подходами:
-
Возможны мультимодальные демонстрации. Люди-операторы могут обучать роботов поведению естественным образом, не боясь сбить его с толку.
-
Пригодность к многомерным пространствам действий. Робот может планировать действия на будущее, что помогает избежать близорукого, непоследовательного или беспорядочного поведения.
-
Стабильное и надёжное обучение. Обучение роботов масштабируемое, можно быть уверенным, что они будут работать без трудоёмкой ручной настройки или утомительного поиска оптимальных контрольных точек.
Мультимодальное поведение
Большинство реальных задач можно решить разными способами. Например, если нужно поднять чашку, человек может схватить её сверху, сбоку или даже снизу. Это явление, называемое поведенческой мультимодальностью, всегда вызывало большие затруднения при обучении роботов, хотя для человека является естественным.
Рассмотрим простой случай: робот должен переместить в заданное место блок Т-образной формы, который лежит на столе.
Робот может перемещать блок, двигая его по столу, и при этом ему придётся двигаться вокруг блока, чтобы добраться до разных сторон Т-образного блока. Робот не может перелететь через блок. Этой задаче присуща мультимодальность — блок разумно обойти слева либо справа — оба варианта будут правильными действиями. Решение заключается в том, что вместо предсказания одного действия изучается распределение по действиям. Diffusion Policy способна изучать эти распределения более стабильным и надёжным способом и намного лучше улавливает эту многомодальность по сравнению с предыдущими подходами.
Способность справляться с мультимодальными демонстрациями оказалась решающей для успешного обучения сложному поведению, требующему ловкости, где этот тип мультимодальности является эндемичным. Также это позволяет роботам легко учиться у нескольких операторов по мере того, как расширяется сбор данных.
Diffusion естественным образом хорошо подходит для высокомерных пространств вывода. Генерация изображений, например, требует предсказания сотен тысяч отдельных пикселей. Для робототехники это ключевое преимущество, оно позволяет диффузионным моделям легко масштабироваться до сложных роботов с несколькими конечностями. Это также обеспечивает критически важную способность предсказывать намеченные траектории действий, а не только одиночные временные шаги. Недавние исследования (DP , ACT) показали, что предсказание траектории часто является ключевой конструктивной особенностью для обучения надёжных стратегий, которые успешно выполняют задачи.
Стабильное обучение
Diffusion Policy также ошеломляюще легко обучать; новое поведение усваивается, не требуя многочисленных дорогостоящих и трудоёмкого процесса оценки для поиска наиболее эффективных контрольных точек и гиперпараметров.
В отличие от приложений компьютерного зрения или естественного языка, системы замкнутого цикла на основе искусственного интеллекта не могут быть точно оценены с помощью автономных показателей — их необходимо оценивать в условиях замкнутого цикла. В робототехнике это означает оценку на физическом оборудовании. То есть любой конвейер обучения, требующий обширной настройки или оптимизации гиперпараметров, становится непрактичным из-за этого узкого места в реальной оценке. Поскольку Diffusion Policy стабильно работает «из коробки», она позволяет обойти эту трудность, что и стало ключевым фактором масштабирования.
Инструменты
Телеоперация
Поскольку роботы обучаются посредством демонстрации на людях, хороший интерфейс телеуправления имеет решающее значение для обучения сложному поведению. Подход к обучению роботов не зависит от выбора устройства дистанционного управления, поэтому используется множество недорогих интерфейсов вроде джойстиков.
Для манипуляций, требующих большой ловкости, роботов обучают с помощью двуручных тактильных устройств с позиционной связью между устройством дистанционного управления и роботом. Связь между позициями означает, что устройство ввода отправляет измеренную позу в виде команд роботу, и робот отслеживает эти команды позы, используя оперативное управление пространством на основе крутящего момента.
Ошибка отслеживания позы робота затем преобразуется в силу и отправляется обратно на устройство ввода, чтобы оператор мог ее почувствовать. Это позволяет операторам замыкать петлю обратной связи с роботом с помощью силы и имеет решающее значение для многих из самых сложных изучаемых навыков.
Обеспечение обратной связи по усилию особенно важно, когда робот взаимодействует с объектом обеими руками. Наглядный пример — работа с устройством, которое надо приводить в действие. Например, с ручным миксером. Такой процесс невозможно достоверно продемонстрировать без этой обратной связи.
В этом примере оператор-человек сделал 10 демонстраций взбивания яиц. Благодаря тактильной обратной связи оператор всегда добивался успеха. Без этой обратной связи ничего бы не вышло. На фото (справа) представлена разбивка режимов отказа, возникающих без применения силы.
Когда робот держит инструмент обеими руками, он создаёт замкнутую кинематическую цепь. Для любой заданной конфигурации робота и инструмента существует широкий диапазон возможных внутренних сил, которые невозможно наблюдать визуально. Определённые конфигурации сил, такие как разъединение захватов, по своей природе нестабильны и могут привести к соскальзыванию захвата робота. Если операторы-люди не будут иметь доступа к тактильной обратной связи, они не смогут ощутить силу или научить её правильному контролю.
Здесь оператор пытается использовать оба захвата для перемещения крекера вверх и вниз, при этом стараясь не сломать его. Это легко сделать с тактильной обратной связью (слева) и чрезвычайно сложно без неё (справа). Благодаря тактильной обратной связи оператор может легко почувствовать силы, вызванные неправильной координацией между двумя захватами, и соответствующим образом отрегулировать их. В результате оператор не ломает крекер, пока не захочет (в конце видео).
Осязание
Любой, кто пытался завязать шнурок в перчатках, знает, насколько важно для людей чувство осязания; при выполнении задач на ловкость умение чувствовать происходящее даёт дополнительную информацию, имеющую решающее значение для успеха. И роботы ничем не отличаются, им также полезно осязание. Чтобы подарить им это чувство, используются датчики TRI Soft-Bubble. Они состоят из внутренней камеры, наблюдающей за надутой деформируемой внешней мембраной. Они выходят за рамки измерения разреженных сигналов силы и позволяют роботу воспринимать пространственно плотную информацию о шаблонах контакта, геометрии, скольжении и силе.
Хотя датчики этого типа были более популярны в последние годы, эффективное использование предоставляемой ими информации — непростая задача. Diffusion обеспечивает роботам естественный способ использования всего богатства этих зрительно-тактильных датчиков (мы используем эти сигналы в качестве дополнительных входных данных), что позволяет нам применять их для произвольных задач, требующих ловкости.
Задача — раскрыть книгу рецептов на странице с салатом. Обратите внимание, что случайно перевернулось слишком много страниц назад и нужно реабилитироваться. Также обратите внимание на небольшое отклонение, обнаруженное на красной странице.
Ранние эксперименты в этом направлении оказались чрезвычайно многообещающими. Оказалось, что во многих случаях добавление сенсорного распознавания значительно улучшает способность робота выполнять задачи с интересными фазами контакта.
Безопасный и эффективный контроль
Критически важным, но часто недооценённым компонентом высокопроизводительного робота является управление среднего уровня. В нашем случае как обучающие стратегии, так и операторы-люди выдают команды на позицию и ориентацию захвата роботом с частотой 10 Гц. Затем эти команды масштабируются и преобразуются в команды на уровне суставов с частотой 1 кГц средним контроллером. Важно отметить, что этот контроллер среднего уровня имеет встроенные средства безопасности, которые обеспечивают защиту робота и предотвращают выполнение потенциально опасных команд на более высоком уровне.
Здесь оператор намеренно выдаёт команду на выполнение небезопасного действия, которое приведёт к столкновению — и контрольный слой робота правильно предотвращает его выполнение.
Новый подход основан на контроле в операционном пространстве и формулируется как задача ограниченной оптимизации по командам на уровне суставов. Целью является отслеживание команд высокого уровня, предоставленных оператором или обучающей стратегией, с соблюдением физических и других ограничений безопасности, таких как избегание столкновений. Эта реализация основана на Drake Systems Framework, которая обеспечивает строгий анализ и тестирование. В будущем планируется открыть исходный код этой реализации.
Надёжный контроллер среднего уровня действительно является основой для обучения поведению высокого качества. Он не только позволяет реализовать критически важные функции, такие как контроль импеданса и тактильная обратная связь, но также предоставляет бесценные средства защиты для всей системы и позволяет операторам доводить робота до его физических пределов без опасения повредить его.
Мы вступаем в замечательную новую эру робототехники. То, на что раньше у опытных робототехников уходили недели времени на разработку, теперь выполняется за половину дня.
Программирование такого поведения несколько лет назад (верхнее изображение) занимало месяцы. Обученная версия (внизу) была готова за день. Но предстоит ещё многое сделать прежде, чем обучение роботов достигнет уровня языковых моделей.
Что ещё интересного есть в блоге Cloud4Y
→ Спортивные часы Garmin: изучаем GarminOS и её ВМ MonkeyC
→ Взлом Hyundai Tucson, часть 1, часть 2
→ Взламываем «умную» зубную щётку