Многие действия, которые мы выполняем в повседневной жизни, кажутся нам весьма тривиальными. Однако для роботов они либо крайне сложны, либо вовсе невыполнимы. Конечно, это может быть связано с отсутствием тех или иных физических элементов (робот-манипулятор не имеет ног, а потому по лестнице не подымется), однако куда более интересно интеллектуальное ограничение. Насколько сложно приготовить чашку растворимого кофе на оживленной кухне? Человеку не нужно для этого быть Гордоном Рамзи, но вот для робота эта задача куда более сложна. Ученые из Эдинбургского университета (Шотландия) создали робота с встроенным ИИ, который способен выполнять сложные многошаговые задачи в непредсказуемых условиях, таких как оживленная офисная кухня. Какими особенностями обладает данный робот, и насколько он эффективно выполняет свои задачи? Ответы на эти вопросы мы найдем в докладе ученых.
Основа исследования
Если Deep Blue (первый компьютер, выигравший шахматный матч у действующего чемпиона мира) был действительно разумным, то разве он не должен был уметь двигать свои собственные фигуры во время игры в шахматы? Интеллект — многогранная конструкция, и поэтому его трудно определить. Следовательно, человеческий интеллект и его оценка — спорная тема. Однако растет консенсус в отношении того, что человеческий интеллект лучше всего понимать как «воплощенное познание», где внимание, язык, обучение, память и восприятие не являются абстрактными когнитивными процессами, ограниченными мозгом, а неразрывно связаны с тем, как тело взаимодействует с окружающей средой. Действительно, появляется все больше доказательств того, что человеческий интеллект имеет свои онтологические и филогенетические основы в сенсомоторных процессах.
Воплощенное познание имеет теоретические последствия для «машинного интеллекта», поскольку предполагает, что машины не смогут продемонстрировать некоторые аспекты интеллекта, если «когнитивные» процессы не будут встроены в роботизированное устройство. Это предположение еще предстоит проверить, но «интеллектуальные роботы» предоставляют эффективный способ изучения различных гипотез, касающихся человеческого интеллекта, и продвижения области машинного интеллекта. С практической точки зрения, эффективное сотрудничество человека и робота в конечном итоге потребует от роботов по крайней мере приближения к «человеческим» возможностям. Таким образом, разумно ожидать от будущих «интеллектуальных машин» того, что они будут иметь потенциал для выполнения абстрактных когнитивных вычислений, поскольку они умело взаимодействуют с объектами и людьми в своей среде.
До сих пор развивались параллельные потоки деятельности: (1) сенсомоторные способности роботов и (2) искусственный интеллект. Ученые решили проверить гипотезу о том, что эти подходы теперь можно объединить, чтобы сделать шаг вперед в способности роботов демонстрировать интеллект, подобный человеческому. Ученые также выдвинули гипотезу, что интеграция (1) и (2) позволит роботам выполнять тип сложных задач, которые практически полезны в широком диапазоне условий, но в настоящее время превосходят возможности роботизированных систем.
Авторы исследования предлагаю рассмотреть следующий сценарий, в котором кто-то возвращается домой, чувствуя себя уставшим и испытывающим жажду. Робот со сложной системой манипуляции находится на кухне домовладельца и получает указание приготовить напиток. Робот решает, что нужно приготовить бодрящую чашку кофе и передать ее своему углеродному компаньону. Эта задача — простая для людей — охватывает ряд задач, которые проверяют пределы текущих возможностей роботов. Во-первых, робот должен интерпретировать получаемую им информацию и анализировать свое окружение. Затем ему может потребоваться обыскать окружающую среду, чтобы найти кружку. Это может включать открытие ящиков с неуказанными механизмами открытия. Затем робот должен измерить и смешать точное соотношение воды и кофе. Это требует точного управления силой и адаптации к неопределенности, если, например, человек неожиданно изменит местоположение кружки. Этот сценарий является каноническим примером многогранной природы сложных задач в динамических средах. Роботизированные системы традиционно боролись с этими задачами, потому что они не могли следовать командам высокого уровня, полагались на заранее запрограммированные ответы и не имели гибкости, чтобы плавно адаптироваться к возмущениям.
Обучение с подкреплением и имитационное обучение продемонстрировали эффективность взаимодействия и демонстрации при обучении роботов выполнению сложных задач. Эти подходы являются многообещающими, но часто испытывают трудности с адаптацией к новым задачам и сценариям их выполнения. Имитационное обучение также сталкивается с трудностями, когда роботу необходимо адаптироваться к новым контекстам. Вдохновленный природой машинный интеллект предоставляет потенциальное решение этих проблем. Сложность человеческой манипуляции отчасти обусловлена типом когнитивных процессов, которые искусственно фиксируются большими языковыми моделями (LLM от large language model). LLM предлагают способ обработки сложных инструкций и соответствующей адаптации действий благодаря их расширенным контекстным способностям понимания и обобщения.
Большое количество недавних исследований использовали LLM для задач с коротким горизонтом. Например, VoxPoser использует LLM для выполнения различных повседневных манипуляционных задач. Аналогичным образом, Robotics Transformer (RT-2) использует крупномасштабные веб-данные и данные роботизированного обучения, позволяя роботам выполнять задачи за пределами сценария обучения с замечательной адаптивностью. Иерархическая политика диффузии вводит модельную структуру для генерации контекстно-зависимых траекторий движения, что улучшает движения, специфичные для задачи, из высокоуровневых входных данных LLM для принятия решений.
Однако остаются проблемы с эффективной интеграцией LLM в роботизированную манипуляцию. К этим проблемам относятся сложные требования к подсказкам, отсутствие интерактивной обратной связи в реальном времени и т.д. Более того, современные подходы игнорируют применение генерации с дополнением извлеченной информацией (RAG от retrieval-augmented generation) в робототехнике, несмотря на потенциал RAG для постоянного обновления и уточнения знаний робота с помощью соответствующих и точных примеров (и увеличения базы знаний без влияния на производительность). Возможности робота также ограничены, поскольку визуальная и силовая обратная связь обычно не интегрированы в сенсомоторное управление робота. Эта интеграция имеет решающее значение в таких сценариях, как наливание воды в движущуюся чашку, где зрение необходимо для отслеживания чашки, а силовая обратная связь необходима для наливания желаемого количества воды, когда зрение отключено.
Изображение №1
ELLMER (от embodied LLM-enabled robot) — это фреймворк, который объединяет подходы в области искусственного интеллекта и сенсомоторного управления. Его полезность возникает из-за комбинированного использования зрения и силы для управления сенсомоторной обратной связью, уникально сочетающегося с когнитивными возможностями, предоставляемыми через интегрированный LLM в сочетании с RAG и курируемой базой знаний. Авторы исследования выдвинули гипотезу, что ELLMER позволит роботу приготовить чашку кофе для человека. Ученые проверили эту гипотезу, используя роботизированную руку Kinova с семью степенями свободы для выполнения сложной, интенсивной задачи в неопределенной среде, используя интегрированную обратную связь по силе и зрению. Общая схема системы представлена выше.
Результаты исследования
Ученые обнаружили, что их подход позволяет роботу реагировать на абстрактную вербальную подсказку высокого порядка («Я устал, друзья скоро должны подать торт. Можешь сделать мне горячий напиток и украсить тарелку случайным рисунком животного на твой выбор») и выполнять желаемую задачу по приготовлению горячего напитка и рисованию фигуры на тарелке.
Видео №1
Робот ответил на подсказку следующим звуковым выводом: «Я готовлю все для приготовления горячего напитка, а также для украшения тарелки случайным рисунком животного. Сначала я найду кружку, затем зачерпну кофе и налью горячую воду. После этого я возьму предмет, вероятно, ручку, чтобы нарисовать на тарелке случайное животное. Звучит как веселое и уютное времяпрепровождение с тортом». В частности, робот решил приготовить чашку кофе, когда он ответил на просьбу о горячем напитке для уставшего человека, и смог разложить поведение более высокого порядка на ряд подзадач.
Интеграция GPT-4 позволила оснастить робота желаемой способностью к абстрактному мышлению. GPT-4 — это языковая модель, которая позволяет роботу обрабатывать запросы пользователя и данные об окружающей среде, чтобы разбить задачи на выполнимые шаги. Созданная система смогла сгенерировать код и выполнить действия с обратной связью по усилию и зрению, эффективно предоставляя роботу форму интеллекта. Данная методология оказалась успешной в создании пользовательского GPT-4 с полной базой данных примеров гибких движений. База данных успешно включала заливку воды, черпание, рисование, передачу, выбор и размещение и открытие дверей.
Было обнаружено, что робот может идентифицировать и извлекать соответствующие примеры для последующей задачи с помощью RAG. Ученые исследовали различные подходы, чтобы определить, как интеллектуальные машины могут наилучшим образом использовать RAG через разработанную структуру. Эти подходы включали настраиваемые методы с открытым исходным кодом, такие как Haystack и Vebra, а также Azure Cloud AI.
Было обнаружено, что все эти подходы были жизнеспособны. Для экспериментов ученые выбрали самый простой метод: логическая организация курируемой базы знаний в файле markdown и загрузка ее в пользовательский API GPT через функцию «Знания» на платформе GPT. Это позволило платформе автоматически обрабатывать процессы извлечения и выбирать между семантическим поиском (возвращением соответствующих фрагментов текста) или обзором документов (предоставлением полных документов или разделов из более крупных текстов). Выбор быт таковым, поскольку он предоставлял современный встраиваемый модуль и модель, обеспечивал простоту использования и мог постоянно обеспечивать хорошую производительность в экспериментальной задаче. Однако созданная структура позволяет включать ряд методов RAG и гарантирует, что «интеллектуальный робот» способен эффективно выполнять сложные задачи. Курируемая база знаний в сочетании с RAG позволила языковой модели получить доступ к большому выбору функций низкого и высокого порядка, каждая из которых имеет известную неопределенность. Тесты показали, что эта возможность позволила роботу эффективно обрабатывать многочисленные сценарии.
Изображение №2
Было обнаружено, что робот умело выполняет высокоуровневую задачу, указанную пользователем, и может получить доступ к комплексной базе данных примитивов движения. База данных включала множество гибких примеров конкретных движений, и они были успешно выполнены роботизированной рукой (снимки выше). В базу данных были включены примеры выливания жидкостей; зачерпывания порошков; открытия дверей с неизвестными механизмами; подбора и размещения объектов; рисования любой запрошенной формы; проведения передачи объектов; и перемещения в различных направлениях, ориентациях или относительно указанных объектов. Робот мог воспроизводить и адаптировать движения, необходимые для выполнения сложных задач, запрошенных пользователем. Система позволяла роботу динамически подстраиваться под переменные и неопределенности окружающей среды. Это повысило эффективность робота в непредсказуемых условиях и улучшило его гибкость и адаптивность в реальных условиях.
Ученые обнаружили, что камера глубины Azure Kinect DK, настроенная на разрешение 640 × 576 пикселей с частотой дискретизации 30 кадров в секунду для определения глубины, способна предоставить достаточный визуальный ввод для данного метода. Была выполнена калибровка с помощью AprilTag размером 14 см, что позволило выполнить выравнивание между камерой и основанием робота с точностью менее 10−6. Такая настройка позволила точно определять положение объекта в пределах сцены. Grounded-Segment-Anything был успешно развернут для модуля «язык-зрение».
Система зрения генерировала трехмерное воксельное представление, которое было эффективно для определения поз объектов в установке (используемый модуль обнаружения Grounding DINO достиг средней точности 52.5 на бенчмарке COCO zero-shot transfer). Например, модуль смог правильно определить белую чашку в 100% случаев в экспериментальных условиях.
Изображение №3
Трехмерное воксельное представление содержало сетки различных объектов. Из этих сеток целевые позы извлекались с частотой 1/3 Гц. В принципе, система должна была быть в состоянии обнаружить любой объект. Однако в пилотной работе ученые установили, что система не всегда точно идентифицирует различные объекты, связанные с приготовлением горячих напитков. Это часто было связано с путаницей между объектами со схожей формой или объектами, отсутствующими в обучающем наборе данных. Ученые также обнаружили, что окклюзия, вызванная конечным эффектором робота, иногда может приводить к неточностям в обнаружении объектов и приводить к ошибкам, когда использовались сильно загроможденные среды. Например, средний показатель успешной идентификации для белой чашки составлял ~90% при коэффициентах окклюзии от 20% до 30%, но существенно снижался при более высоких коэффициентах окклюзии (например, до ~20% для коэффициентов окклюзии от 80% до 90%). Ожидается, что улучшения в компьютерном зрении повысят способность роботов справляться даже с самыми визуально сложными средами. Однако производительность системы машинного зрения оказалась впечатляющей, и что система может хорошо справляться с относительно не ограниченными средами, если избегать выявленных проблем (например, использования объектов, находящихся вне зоны распространения) (фото выше).
Было установлено, что многоосевой датчик силы и крутящего момента ATI обеспечивает достаточную обратную связь по силе для искусного взаимодействия с объектом. Датчик обеспечивает шесть компонентов силы и крутящего момента, и силы, прикладываемые конечным исполнительным органом робота во время выполнения задачи, были успешно измерены. Точность датчика находится в пределах ~2% от полной шкалы при частоте дискретизации 100 Гц.
Изображение №4
Робот демонстрирует разнообразную динамику движения, сопровождаемую различными типами силовой обратной связи во время выполнения задачи. Выше показаны силы, испытываемые роботом, когда он готовил кофе и передавал ручку. При выполнении различных задач обрабатывался разнообразный спектр внешних сил. Например, при опускании кружки пиковая сила, направленная вверх, использовалась в качестве индикатора успешного размещения. Напротив, во время манипуляций с ящиками силы и крутящие моменты вдоль осей x и y были критическими, что подчеркивает их важность для успешного выполнения задачи. Изменчивость силовой обратной связи иллюстрирует преимущества разработанного масштабируемого подхода, который адаптируется к требованиям различных движений.
Точность наливания составила ~5.4 г на 100 г при скорости тангажа 4 м/с. Ученые предположили квазистатическое равновесие для оценки объема воды, налитой в любой момент времени. Однако по мере увеличения скорости тангажа точность снижалась, и погрешность приближалась к ~20 г/с при скорости тангажа 30 м/с. Это снижение точности можно объяснить нарушением квазистатического предположения и влиянием распределения массы как среды наливания, так и контейнера на точность измерения.
Изображение №5
Было обнаружено, что DALL-E успешно создает изображение, из которого можно вывести траекторию рисования. Это позволяет роботу рисовать любой дизайн, указанный пользователем. DALL-E может создавать силуэты на основе ключевых слов, извлеченных от пользователя, таких как «случайная птица» или «случайное растение». Контур силуэта был извлечен и преобразован в соответствии с размерами целевой поверхности. Это позволило роботу воспроизвести дизайн на различных физических объектах (снимки выше). Силовая обратная связь обеспечивает равномерное давление пера при рисовании, и это позволяет контролировать компонент z.
В заключении, ученые провели оценку разработанного метода создания роботизированных систем по сравнению с Vox-Poser, который не использует RAG или силовую обратную связь. Чтобы сравнить методы, ученые попросили LLM сгенерировать 80 человекоподобных запросов, отражающих диапазон задач, указанных в базе знаний. Затем эти запросы использовались для создания роботизированных систем. Ученые сравнили результаты производительности при использовании RAG — в котором база знаний динамически интегрируется в процесс принятия решений LLM — с базовым уровнем (VoxPoser), в котором база знаний была статически включена в контекстное окно LLM. Важно отметить, что второй подход не имеет масштабируемости и становится непрактичным по мере расширения базы знаний.
Результаты оценивались на основе верности ответа, которая оценивает правдивость и точность ответа. Использование RAG улучшило верность ответов. Для GPT-4 (gpt-4-0613) оценка верности увеличилась с 0.74 до 0.88 с RAG. Аналогично, GPT-3.5-turbo (gpt-3.5-turbo-0125) достигла 0.86 с RAG по сравнению с 0.78 без него, а Zephyr-7B-beta показала рост с 0.37 до 0.44. Улучшение верности особенно важно для роботизированных приложений, где точное выполнение во время физических взаимодействий имеет важное значение.
Для более детального ознакомления с нюансами исследования рекомендую заглянуть в доклад ученых и дополнительные материалы к нему.
Эпилог
В рассмотренном нами сегодня труде ученые создали и протестировали робота, который должен был выполнить задачу по приготовлению кофе. На первый взгляд, данная задача кажется весьма простой, но это с точки зрения человека. Для робота же она состоит из множества этапов, каждый из которых должен быть точно выполнен для получения желаемого результата.
Роботы без труда справляются с задачами, выполнение которых происходит в строго контролируемых средах. Однако, если среда становится непредсказуемая, то и задача становится сложнее. Созданный учеными робот, оснащенный ИИ, воспринимает устные команды пользователя, затем оценивает окружающее его пространство для дальнейшего выполнения команды. Благодаря датчикам, робот может точно смешивать кофе, наливать воду в кружку и аккуратно ставить ее в нужное место. Адаптивность робота также на высоте, и он может быстро изменить свои действия в случае, если кто-то, к примеру, переместит кружку.
Ученые объясняют, что интеллект — это не только знания, но комбинация рассуждений, движения и восприятия. Роботы и ИИ часто идут лишь по одному из этих путей. Однако комбинация их может позволить значительно усовершенствовать интеллект роботов, тем самым сделав их более полезными, особенно в ситуациях тесного взаимодействия с человеком.
Немного рекламы
Спасибо, что остаётесь с нами. Вам нравятся наши статьи? Хотите видеть больше интересных материалов? Поддержите нас, оформив заказ или порекомендовав знакомым, облачные VPS для разработчиков от $4.99, уникальный аналог entry-level серверов, который был придуман нами для Вас: Вся правда о VPS (KVM) E5-2697 v3 (6 Cores) 10GB DDR4 480GB SSD 1Gbps от $19 или как правильно делить сервер? (доступны варианты с RAID1 и RAID10, до 24 ядер и до 40GB DDR4).
Dell R730xd в 2 раза дешевле в дата-центре Maincubes Tier IV в Амстердаме? Только у нас 2 х Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 ТВ от $199 в Нидерландах! Dell R420 — 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB — от $99! Читайте о том Как построить инфраструктуру корп. класса c применением серверов Dell R730xd Е5-2650 v4 стоимостью 9000 евро за копейки?