Первые роботы, чей внешний вид напоминал Железного Дровосека, постепенно уступают дорогу мягким роботам, спектр применения которых растет с каждым новым исследованием. Мягкие роботы могут оперировать в условиях и средах, которые были бы недостижимы их жестким собратьям. Однако, развитие и совершенствование мягкой робототехники далеко от завершения. К примеру, ученые из Массачусетского технологического института (Кембридж, США) разработали новый метод машинного обучения, который позволит динамически управлять роботами с адаптируемой морфологией. В чем суть данного метода, насколько он эффективен, и где могут быть применены «желеобразные» роботы? Ответы на эти вопросы мы найдем в докладе ученых.
Основа исследования
Морфология — это термин, которые имеет множество применений в зависимости от направления науки, в котором он применяется. Говоря о биологии, морфология является наукой о форме и строении организмов. За миллионы лет существования планеты морфология живых организмов многократно менялась в ходе эволюции в ответ на изменения окружающей среды. Также стоит отметить изменения морфологии, которые протекают за период жизни того или иного организма. Подобные изменения могут быть разительными в аспекте габаритов (например, когда из небольшого семечка вырастает огромное дерево), так и по форме (например, когда из головастика вырастает лягушка).
Подобные биологические процессы являются практически неисчерпаемым источником вдохновения для инженеров, занимающихся разработкой новых типов роботов. Если же говорить о роботах с динамической морфологией, то необходимо обеспечить его системой, позволяющей ему верно обрабатывать изменения среды и соответствующим образом на это реагировать.
Разработка реконфигурируемых роботов пока еще сталкивается с большим числом сложностей, как в сфере материального, так и в сфере программного обеспечения. В рассматриваемом нами сегодня труде ученые определили три основные проблемы в алгоритмическом исследовании реконфигурируемых роботов и предложили способы их решения.
Как отмечают ученые описать, что такое реконфигурируемый робот, в теории достаточно легко, однако единого мнения о том, как моделировать этих роботов и как можно параметризовать их действия, пока еще нет. Ученые предлагают моделировать мягких реконфигурируемых роботов с помощью метода материальной точки* (MPM от Material Point Method), одновременно изменяя обновление напряжения Коши*, чтобы включить в него актуацию, заданную через непрерывное мышечное поле.
Метод материальной точки* — это числовой метод, используемый для моделирования поведения твердых тел, жидкостей, газов и любого объемного материала. В частности, это устойчивый метод дискретизации пространства для моделирования многофазовых взаимодействий (твердое тело-жидкость-газ).
Тензор напряжений* (иногда тензор напряжений Коши, тензор натяжений) — тензор второго ранга, описывающий механические напряжения в произвольной точке нагруженного тела, возникающих в этой точке при его (тела) малых деформациях.
Это приводит к моделированию недавно описанного реконфигурируемого магнитного робота-слизня («Reconfigurable Magnetic Slime Robot: Deformation, Adaptability, and Multifunction»). В результате появляется возможность формализовать управление реконфигурируемым роботом в задачу обучения с подкреплением, используя двумерное непрерывное мышечное поле в качестве пространства действия.
Еще более важным моментом является тот факт, что неструктурированная природа мягких роботов делает традиционные алгоритмы управления непригодными. В то время как методы, основанные на обучении, такие как обучение с подкреплением (RL от reinforcement learning), превосходны в решении множества неструктурированных задач управления, реконфигурируемые роботы представляют собой уникальную задачу из-за чрезвычайно многомерного пространства действий, необходимого даже для малейшего изменения морфологии.
Например, для успеха RL необходимо гарантировать, что случайное движение приведет к значимым морфологическим изменениям. На практике это означает, что действия должны перемещать большие части робота за раз. С другой стороны, для выполнения детальных действий, таких как ходьба, пространство действий должно поддерживать детальные действия.
Наконец, не существует стандартного эталона для детализированных реконфигурируемых роботов. Ученые представили DittoGym, первый тест RL для реконфигурируемых роботов. DittoGym — это набор из восьми долгосрочных задач, которые требуют различной степени морфологических изменений. Четыре среды требуют, чтобы робот несколько раз менял свою морфологию во время выполнения задачи.
Теоретическая основа
Метод материальной точки (MPM) — это универсальный метод компьютерного моделирования на основе частиц, широко используемый в области механики твердого тела и вычислительной физики. Будучи гибридом методов Эйлера и Лагранжа, MPM включает в себя операции как на основе сетки, так и на основе частиц. Этап сетки в первую очередь служит для обработки граничных условий, а этап частиц ориентирован на взаимодействие между тысячами частиц.
Изображение №1
На этом последнем этапе важнейшей задачей является вычисление деформации материала, также известной как напряжение Коши, поскольку она глубоко влияет на последующее движение частиц. Напряжение Коши определяется следующим уравнением:
Cauchy Stress = 2μ(Fp − r)FTp + diag(λ(Jp − 1)Jp)
где μ и λ представляют параметры материала, rp — ортогональная матрица, полученная в результате полярного разложения в MPM, а Jp — определитель Fp.
Критерий текучести фон Мизеса используется для прогнозирования момента, когда материал подвергнется пластической деформации. Градиент деформации Fp можно разложить с помощью разложения по сингулярным значениям (SVD от Singular Value Decomposition) для получения диагональной матрицы Σp, которая представляет масштаб деформации для каждой частицы. Пластическая деформация начинается, когда норма этой матрицы, обозначенная как ∥Σp∥2, превышает критерий текучести Yieldm. На этом этапе материал «забывает» свое первоначальное состояние, что требует проекции градиента деформации для учета этого отклонения от исходной конфигурации.
Ученые использовали обучение с подкреплением (RL), где задача моделировалась как марковский процесс принятия решений* (MDP от Markov Decision Process), характеризуемый пятью переменными (S, A, P, r, γ), где: S обозначает пространство состояний, A обозначает пространство действий, P: S × A → S инкапсулирует динамику перехода среды, r(s, a): S × A → R определяет количественную оценку вознаграждений, а γ ∈ (0, 1] управляет временным дисконтированием вознаграждений. Цель RL агента — получить политику πθ(at|st), параметризованную глубокой нейронной сетью.
Марковский процесс принятия решений* — математический формализм для марковского дискретного стохастического процесса управления, основа для моделирования последовательного принятия решений в ситуациях, где результаты частично случайны и частично зависят от лица, принимающего решения.
Детали разработанного метода
Как говорилось ранее, ученые определили три основные проблемы в области алгоритмизации реконфигурируемых роботов: отсутствие формализации, отсутствие соответствующего алгоритма и отсутствие эталона.
Управление реконфигурируемыми роботами — это неструктурированная задача управления, которая, естественно, подходит для методов проб и ошибок, таких как обучение с подкреплением. Таким образом, ученые формализовали задачу управления в виде строительных блоков MDP. Чтобы определить динамику перехода в MDP, необходимо формализовать реконфигурируемых мягких роботов в моделируемую систему.
Изображение №2
Чтобы этого достичь, ученые использовали MPM в качестве основы моделирования мягких роботов. Как показано выше, для моделирования реалистичных деформаций ученые черпали вдохновение из предыдущих работ, вводя критерий текучести фон Мизеса в алгоритм MPM. Этот критерий моделирует робота как упругопластический материал, демонстрирующий упругую деформацию при малых напряжениях и пластическую деформацию при более высоких напряжениях.
Также была использована модификация уравнения напряжения Коши, позволяющая частицам растягивать или сжимать свою форму в ответ на сигнал действия, аналогично естественным мышцам. В результате робот демонстрирует макроскопические изменения в морфологии, когда воздействие заставляет значительную часть частиц подвергаться пластической деформации, в то время как напряжение ниже предела текучести фон Мизеса приводит к упругим деформациям, служащим пружинным механизмом, обеспечивающим например, средства передвижения.
Final Cauchy Stress = 2μ(Fp — r)FTp + diag (λ(Jp — 1)Jp) + Fp∑cp FTp
Вышеупомянутая динамика перехода MDP требует указания вектора срабатывания для каждой отдельной частицы. Стоит отметить, что MPM — это метод моделирования на основе частиц, который аппроксимирует непрерывную динамику в непрерывном пространстве. Следовательно, пространство действий должно также представлять собой непрерывное поле, где каждая координата внутри робота имеет вектор действия. Это также отражает управление магнитным роботом-слизнем с помощью внешнего магнитного поля.
Определив пространство действий, легко определить остальные компоненты MDP: состояние — это просто состояние всех частиц в моделировании MPM, тогда как существует возможность выбирать функции наблюдения и вознаграждения в индивидуальном порядке для разных сценариев среды. Таким образом, ученые формализовали абстрактную задачу управления реконфигурируемым роботом в задачу MDP, которую можно решить с помощью обучения с подкреплением.
Изображение №3
Модель была разработана с полностью сверточной архитектурой, что позволяет ей анализировать наблюдения на уровне пикселей за формой робота и его скоростью. На основе этого анализа она генерирует дискретные сигналы действия, которые способствуют аппроксимации идеального силового поля, как показано на изображении выше.
MDP требует бесконечномерного пространства действия в виде непрерывного двумерного силового поля, действующего на робота. Бикубическая интерполяция может интерполировать регулярную сетку n-D объектов в отображение любой координаты n-D на объект. Таким образом, параметризация была выполнена с помощью нейронной сети, которая выводит дискретную сетку действий n-D и интерполирует ее в непрерывное пространство действий.
Хотя дискретная параметризация обеспечивает дифференцируемый способ задания пространственно непрерывного действия, необходимо достаточно высокое разрешение дискретизации, чтобы контролировать мельчайшие изменения морфологии. Высокие разрешения приводят к созданию многомерного пространства действий, что оказалось сложной задачей для традиционных алгоритмов обучения с подкреплением. Ученые решили использовать полностью сверточную сеть для параметризации политики, которая может совместно использовать параметры в разных пространственных местоположениях, эффективно уменьшая размер пространства поиска. Эта сеть принимает изображения реконфигурируемого робота и его непосредственного окружения в качестве входных данных и генерирует 2D-выходные данные, которые аппроксимируют непрерывное мышечное поле посредством бикубической интерполяции.
Подготовка к опытам
Цифровые эталонные среды широко используются исследователями алгоритмов управления для ускорения своих исследований и облегчения честного сравнения. Используемый учеными в данном труде тест DittoGym учитывает отсутствие стандартизированных тестов для реконфигурируемых мягких роботов с малейшими изменениями морфологии. В набор из шести OpenAI сред Gym было включено формализованное моделирование. Для моделирования деформируемых мягких роботов и внешних объектов, взаимодействующих с ними, было реализовано моделирование соответствующих материалов в методе материальной точки (MPM от Material Point Method) с использованием фреймворка Taichi. Следовательно, DittoGym не только предоставляет удобный Python интерфейс, но также полностью использует аппаратные ускорители, такие как графические процессоры, для моделирования частиц MPM.
В качестве пространства наблюдения было использовано растровое двумерное изображение квадратной области вокруг геометрического центра робота, где в качестве каналов используются как занятость, так и скорость. Пространство действий реализовано в виде 2D-сетки срабатываний для одного и того же квадрата с максимально возможным разрешением для моделирования. Каждый двумерный вектор в двумерной сетке действий контролирует напряжение, приложенное к соответствующей точке, где величина определяет, произойдет ли пластическая или упругая деформация.
В рамках этой структуры ученые реализовали множество задач, включая сопоставление форм, локомоция, растяжение и манипулирование. Каждая задача требует морфологической адаптации для удовлетворения конкретных детальных требований, иногда требуя множественных морфологических изменений для достижения желаемых целей.
Результаты опытов
В ходе экспериментов основная задача заключалась в поиске ответов на три вопроса:
- может ли используемая формализация в сочетании с соответствующими алгоритмами позволить моделируемым мягким роботам выполнять задачи, требующие мельчайших изменений морфологии?
- может ли DittoGym тест в достаточной степени оценить алгоритмы, предназначенные для контроля мелких изменений морфологии мягких роботов?
- насколько эффективна выборка CFP (от Coarse-to-Fine Policy) для управления реконфигурируемым роботом по сравнению с соответствующими базовыми показателями?
Изображение №4
Одним из основных результатов исследования, как отмечают ученые, является формализация управления реконфигурируемым роботом в задаче обучения с подкреплением. На изображении №1 была визуализирована многоэтапная задача, которую можно реализовать с помощью исследуемой платформы. На изображении выше показаны четыре дополнительных задания из DittoGym, которые требуют от робота изменения своей морфологии во время их выполнения.
В задаче «SHAPE MATCH» робот может успешно имитировать форму целевого символа, подчеркивая способность робота перенастраиваться под произвольные целевые формы.
В задаче «GROW» учится удлинять и изгибать свое тело. Эта новая форма позволяет роботу обходить препятствия и достигать целевой точки, подобно тому, как это делают семена в процессе произрастания.
В задаче «OBSTACLE» робот удлиняет свое тело и наклоняется вперед, чтобы использовать силу гравитации и быстро преодолеть препятствие. Впоследствии робот формирует два отростка, похожие на ноги, и использует их для ходьбы, обеспечивая эффективное продвижение вперед.
Наконец, для задачи «SLOT» робот уменьшает свою высоту, одновременно отращивая две очень короткие ноги, чтобы маневрировать в исключительно узком пространстве, напоминая мышь, бегущую по трубе. Чтобы открыть деревянную крышку на конце трубы, робот удаляет ноги и вытягивает туловище вверх, чтобы эффективно взаимодействовать с крышкой.
Изображение №5
Прежде чем количественно оценить CFP по сравнению с базовыми показателями в DittoGym, необходимо доказать, что DittoGym действительно требует мельчайших изменений морфологии, чтобы мягкий робот достигал высоких результатов.
В количественном отношении ученые использовали экспертные политики, обученные с учетом каждой детализации пространства действий, и визуализировали максимальное вознаграждение, которого они могут достичь. Ученые изучили эту метрику для трех разных уровней детализации: грубого (4×4×2), среднего (8×8×2) и тонкого (16×16×2). Как показано выше, более высокое разрешение действий почти всегда приводит к более высокому возможному результату во всех 8 средах. Эта тенденция подтверждает, что DittoGym требует от агента изучения мелких морфологических изменений.
Изображение №6
Качественно возможно визуализировать поведение экспертной политики на разных уровнях детализации. На изображении выше показана визуализация лучшей формы, которую робот может достичь в задаче «SHAPE MATCH» при различных разрешениях действий. При более грубом разрешении робот может вносить значимые изменения в форму, но не может генерировать высокочастотные детали целевой формы, такие как кончики каждого луча звезды. С другой стороны, параметризация действий с высоким разрешением позволяет роботу изменять свою морфологию, чтобы соответствовать целевой форме.
В заключении исследования ученые попытались понять, имеет ли CFP более высокую производительность по сравнению с базовыми показателями при управлении реконфигурируемыми роботами с мельчайшими изменениями морфологии. Поэтому ученые сравнили CFP и вышеупомянутые базовые показатели в 8 различных средах DittoGym.
Изображение №7
Выше показаны кривые результатов за единичный опыт для всех восьми сред. Тестируемый алгоритм CFP последовательно превосходит все базовые показатели во всех задачах с точки зрения общей эффективности выборки. Кроме того, CFP может постоянно получать более высокие результаты за опыт при конвергенции. При визуализации политики только CFP способен добиться успеха в долгосрочных многоэтапных средах, представляя его как единственный жизнеспособный вариант решения сложных задач.
Как количественное сравнение, так и качественный анализ демонстрируют эффективность CFP в DittoGym, иллюстрируя его уникальную способность управлять реконфигурируемыми мягкими роботами для выполнения долгосрочных задач, требующих мельчайших изменений формы.
Для более детального ознакомления с нюансами исследования рекомендую заглянуть в доклад ученых, дополнительные материалы к нему, а также на их GitHub.
Эпилог
В рассмотренном нами сегодня труде ученые рассказали о разработанном ими алгоритме, который может эффективно управлять изменениями морфологии мягких роботов для повышения эффективности выполне6ния сложных и многоэтапных задач.
Вдохновением для данного исследования, как не удивительно, стала природа. Многие организмы претерпевают морфологические изменения не только за тысячи лет эволюции, но и в период своей жизни: гусеницы превращаются в бабочек, головастики в лягушек и т. д. Научить робота подобной трансформации, даже если он обладает материальным обеспечением, крайне сложно.
Авторы исследования стали первыми, кто смог реализовать инновационную параметризацию реконфигурируемых роботов как мягкого материала, приводимого в действие мышечным полем. Затем ученые представили фреймворк CFP (от Coarse-to-Fine Policy), который использует полностью сверточную оценку состояния и параметризацию действий, дополненную учебной программой, которая гарантирует значимое исследование пространства при сохранении возможностей детального управления.
Разработанный учеными тест, названный DittoGym, использовал восемь сред, которые требуют радикальных изменений морфологии мягкого робота для выполнения поставленных задач. В результате роботы, обученные с помощью CFP, научились динамически изменять свою морфологию несколько раз в течение одного периода активности для выполнения тех или иных задач.
Несмотря на то, что мягкие роботы с динамической морфологией еще далеки от своего создания, данное исследование позволяет создать фундамент для эффективного управления такими роботами будущего. Авторы исследования также уверены, что их труд послужит вдохновением не только для создания вышеописанных роботов, но и для использования двумерных пространств для тестирования и реализации других сложных задач управления.
Немного рекламы
Спасибо, что остаётесь с нами. Вам нравятся наши статьи? Хотите видеть больше интересных материалов? Поддержите нас, оформив заказ или порекомендовав знакомым, облачные VPS для разработчиков от $4.99, уникальный аналог entry-level серверов, который был придуман нами для Вас: Вся правда о VPS (KVM) E5-2697 v3 (6 Cores) 10GB DDR4 480GB SSD 1Gbps от $19 или как правильно делить сервер? (доступны варианты с RAID1 и RAID10, до 24 ядер и до 40GB DDR4).
Dell R730xd в 2 раза дешевле в дата-центре Maincubes Tier IV в Амстердаме? Только у нас 2 х Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 ТВ от $199 в Нидерландах! Dell R420 — 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB — от $99! Читайте о том Как построить инфраструктуру корп. класса c применением серверов Dell R730xd Е5-2650 v4 стоимостью 9000 евро за копейки?