В данной статье хочу рассказать о нашем опыте подготовки и выступления на полуфинале 4-летнего соревнования $10M XPRIZE ANA Avatar по созданию аватар-систем, а также о планах на финал. Конкурс посвящен созданию удаленно-управляемых аватаров, позволяющих человеку физически присутствовать в любой точке пространства, где есть интернет.
Оценку делают двое судей: оператор и реципиент, которые находятся в разных комнатах. Оператор присутствует в комнате реципиента через аватар. В рамках разных тестовых сценариев оператор и реципиент общаются друг с другом, и оператор может полноценно взаимодействовать с предметами из пространства реципиента.
Полуфинал соревнований состоялся в сентябре 2021 года в Майами, по итогам выступления наша команда Dragon Tree Labs по баллам занимает 2-е место среди 15-ти команд, прошедших в финал. Ожидаем, что сам финал пройдет в начале ноября в США.
На этом этапе мы готовим несколько экспериментальных улучшений относительно модели, представленной в полуфинале, и настроены на призовые места. Нам интересно привлечь к проектной работе над аватаром инженеров с опытом в областях:
-
audio engineering: stereo live streaming (in/out) of dynamic scene
(задачу можно решать как захватом реального стерео, так и синтезом из моно через локализацию положения головы) -
ultra–low latency WebRTC: streaming 4k (in/out), wifi tuning
-
realtime video editing: имитация фовеального зрения (no-headset virtual monitors)
За выход в финал наша команда получила 133 тыс. долл. призовых, которые сейчас мы используем на подготовку к финалу. Призовые за победу в финале составят 8 млн. долл., которые будут распределены между 3-мя командами-победителями.
Что ожидаем в финале конкурса?
Из описания потребностей понятно — мы хотим отказаться от VR шлема как от интерфейса управления оператора и передавать единое (merged) панорамное звучание и видео изображение пространства, усиливая для оператора ощущение присутствия в удаленном пространстве со своим собеседником.
Проходя полуфинальные тесты, мы увидели большой trade-off, который делает команда, используя VR-headset:
-
С одной стороны, оператору удобно пространственно ощущать себя в удаленном месте за счет того, что вращения головой синхронизировано с перемещением стереокамеры;
-
С другой — реципиент в этом случае не может видеть лицо оператора, теряется eye-contact, потому как лицо закрыто шлемом. В результате реципиент вынужден воспринимать оператора через статичное фото изображение.
В результате реципиент может фокусироваться лишь на том, как выглядит и двигается аватар, а не человеке, находящемся “позади” аватара. Поскольку целью конкурса является улучшение human-to-human remote interaction (а не human-machine), то, на наш взгляд, путей два: либо средствами CV синтезировать взгляд глаз оператора, либо убирать шлем и стримить реальный взгляд.
Facebook Reality Lab экспериментирует с первым подходом, а мы выбрали второй путь, и для нас это смелый и решительный шаг. Вопросы и комментарии по названным темам — welcome в комментариях.
Помимо перечисленных областей мы приглашаем к коллаборации industrial designers (и студии), которым интересно заявить о себе на международной арене. Мы планируем делать “панцирь” на плечевой пояс, грудь, руки-манипуляторы и голову, так чтобы это не было похоже ни на робота, ни на человека, а воспринималось как симбиоз человека (оператора) и его универсального электронного тела. Например, так:
Как мы это видим: по запросу мы готовы прислать эскизы корпуса-рамы аватара с размерами, и далее, изготовив прототипы по вашему скетчу/модели, сравнить и выбрать тот, который больше всего понравится. Мы будем рады нанести имя/сайт автора на одну из заметных частей аватара. Пишите на почту.
Базово сама система уже создана, но для выступления в финале мы хотим еще многое успеть. Мы внедряем качественно новые элементы передачи ощущений присутствия в удаленном пространстве, а также стремимся к тому, чтобы реципиент верил в живое общение с оператором. Консультации и мнения экспертов в области телеуправления (телеприсутствия) и, особенно, в области передачи силомоментной обратной связи — приветствуем, и приглашаем провести предварительные испытания в лаборатории в Москве, усилить виртуальную команду.
Каким был Джонни в полуфинале конкурса
Итак, расскажу о том, как мы создавали Джонни и что поняли про разработку таких новых систем. Идеологическую работу над аватаром мы начали в середине 2019-го года, когда успели заскочить в последний вагон, подав заявку на участие в конкурсе и оплатив взнос участника. Тогда наш сформированный концепт базировался на продвинутых платформах и манипуляторах (Spot от Boston Dynamics, манипуляторы Universal и тд), где наш основной вклад заключался в разработке дата-костюма для управления этой системой. Но быстро стало понятно несколько вещей:
-
Такие платформы сложно (а некоторые невозможно) приобрести, особенно с учетом доступных энтузиастам бюджетов,
-
а во-вторых: перевозить такие системы на конкурс и обратно — очень сложная задача.
После того, как организаторы озвучили возможные сценарии для сравнения аватар-систем разных команд, мы приняли решение с нуля собрать аватара из доступных нам компонентов, способного выступить в полуфинале конкурса. Организаторы предложили 100-бальную шкалу оценки систем во время выступлений, и мы принялись максимизировать баллы в каждом сценарии выступления. Предложенные сценарии были направлены на аспекты перемещения физических действий человека через интернет, а также эмоциональный аспект взаимодействия через аватара:
-
Игра в собирание детского пазла с реципиентом
-
Совместный осмотр музейного экспоната, обсуждения веса и материала
-
Совместное празднование сделки, нужно поднять бокал и отметить событие привычным нам «cheers»
На первый взгляд, тривиальная задача, соединить радионяню, манипулятор и колесную базу и управлять всем через интернет.
В одной из студенческих лабораторий была найдена колесная база с шеей на ременном приводе, экспериментально соединенных с VR–шлемом, которую автор шутливо называл Джонни. Далее несколько раз менялось тело Джонни, а торс — робот Reachy с одной рукой — мы смогли приобрести у французской компании Pollen Robotics, которая также принимает участие в конкурсе $10M XPRIZE ANA Avatar, и была рада, что ее продукт интересен и другой команде. Везти пришлось поездом(!) в ручной клади, чтобы успеть оттестировать и заинтегрировать за 3 месяца до финала.
Процесс интеграции двух изначально несовместимых систем был сложным, результатом которой стала наша собственная система управления роботом Reachy, его головой и рукой. Мы создали свой собственный интерфейс передачи стерео-видео, которое созерцал Reachy, в VR шлем и соединили с VR-контроллерами Oculus для управления манипуляторами в реальном времени.
Еще до покупки Reachy мы вели разработку собственного манипулятора, который должен был выдерживать нагрузку в несколько килограмм, но при этом оставаться в режиме consumer electronics, а не industrial типа UR. За 3 месяца до выступлений мы еще игрались с фанерным прототипом данного манипулятора 🙂 естественно это приводило к дикому тремору.
Покупая Reachy, мы рассчитывали, что более антропоморфная рука сможет стабильно взаимодействовать с предметами и передавать эмоции, но в процессе тестов увидели, что с тяжелыми предметами она не способна справиться и часто отказывала при нагрузках. Обе руки работали нестабильно, поэтому вторая рука всегда служила бэкапом первой для выполнения разных сценариев — мы всеми силами пытались перестраховаться. Рука Reachy, будучи более антропоморфной, должна была отвечать за передачу эмоций оператора жестами.
В итоге лишь на несколько дней до вылета в Майми к телу Джонни мы добавили еще один стабильно работающий / управляемый манипулятор. На выступлении Джонни имел 2 руки, которые обладали разной функциональностью, от взвешивания предметов и переноса тяжелых объектов, до приятного помахивая «hello» собеседнику. За 3 месяца тестов моторы Reachy “устали”, и добиться стабильной передачи движений стало совсем непросто, поэтому вторая рука нас спасла.
Стоит отметить, что судьи оценивали не только техническую составляющую и безупречность выполнения сценариев и надежность системы. Эстетический аспект, удобство управления и простота обучения сыграли огромное значение в получении высоких оценок. Для Джонни мы сшили кастомный смокинг с бабочкой, в котором он и выступил в Майми.
О команде, которая сделала ЭТО
В нашей команде не было экспертизы по многим областям разработки, поэтому мы привлекали проектные студии. Нас спасло то, что мы смогли найти и объединить людей, которые не были знакомы еще 3 месяца назад. Но также это наш огромный фейл. Более 2/3 команды работало на подряде и было очень непросто донести цели, оцифрованные критерии оценки сценариев, к которым мы стремились как команда.
В прошлом году нашу разработку можно сравнить с яхтой, которой управляет сразу несколько капитанов со своими командами, которые предпочитают сначала выбрать направление, настроить паруса, а потом уже обсуждать с другими капитанами «А куда же хочется приплыть, что максимизируем?» Не скрою, это было стрессово.
Для проектных студий обычно необходимо привычное ТЗ, четкое описание входящих данных и ожидаемого результата. Доработки и внесение изменений после тестирования негативно влияли на их мотивацию. Также у студий обычно несколько проектов и, несмотря на уникальность задачи, нам было сложно конкурировать за дополнительное внимание к нашему проекту. Весь процесс усложняется тем, что команды находились в разных городах, не сидели рядом друг с другом. Мы устраивали съезд раз в две недели, чтобы в лаборатории провести тесты, аналогичные тем, что будут в полуфинале. Это очень помогло сблизить позиции, хоть тесты и имели не только формальную оценку “получилось/нет”, но и качественную “удобнее/запутаннее”; они давали понимание что сделано и как надо переделывать. В итоге, накал эмоций дал хороший результат в плане самоотдачи и эмоции удавалось свести в конструктивное русло. Но, в то же время, на мой взгляд, за это второе место мы заплатили слишком высокую цену: как говорится, “осадочек остался” и после полуфинала ребятам было тяжело общаться.
Вся интеграция уперлась в экспертизу пары человек in-house команды, а эффект был ожидаемый: у каждой команды разработчиков все работало, но вместе не запускалось. Из-за разницы часовых поясов, мы ночами запускали и тестировали Джонни в удаленном режиме, параллельно создавая мануалы для судей. Из полученных призовых, полученных за выход в финал, мы выделили сумму на премии тем, кто особенно сильно себя проявил и сделал наше участие в финале возможным. Мы очень благодарны всей команде, и in-house, и проектной, что полуфинал случился и ребята это вытянули.
Подготовка к финалу
Полуфинал случился и по scoring points мы заняли 2-е место! Сегодня мы иначе подходим к разработке. Проектом по конкурсу управляет очень опытный разработчик, которого мы встретили уже после полуфинала. Он ранее участвовал в Google Lunar X Prize и далее будет являться техническим лидером в проекте. Он привлекает к проекту тех, кто хорошо знаком с разработкой сложных систем и обладает опытом интеграции новых людей в актуальные задачи проекта.
Сегодня мы активно готовимся к финалу, хотя кейсы финальных тестов еще не объявлены. Организаторы планируют опубликовать тестовые задания для финала в конце мая (за 6 месяцев до финала).
Немного о том, что такое Human-to-Human communication. На первый взгляд, тривиальная вещь, мы все знаем как общаться 🙂 а еще лучше можем объяснить другим то, как общаться правильно и как неправильно). Но наделить машину такими характеристиками, чтобы, общаясь через нее, мы могли не замечать роботизированную конструкцию, а фокусироваться на живом общении с человеком — это уже задача следующего порядка. Для этого очень важно распознать и передать эмоции от живого общения и транслировать их в дизайн, способы передачи видео и звука, натуральное движение манипуляторов, формы пальцев, скорости движения и поворотов платформы и многое другое. Сделать это так, чтобы взаимодействие больше воспринималось естественным проявлением жизни человека и меньше кибер–панком.
По итогам полу-финальных тестов судьи XPRIZE достаточно четко суммировали вопросы, по которым можно оценить реалистичность взаимодействия. Я не стал их переводить на русский, чтобы не потерять заложенный смысл:
-
how we communicate with one another
-
how to bring 2 people into a shared physical space
-
do i feel like you are here?
-
in order to be successful at Finals, we need to get to levels, where we are building relationships
-
are we achieving emotional connections?
-
it’s not about interacting with a robot, but interacting with a person
-
it’s about connecting people
-
a lot of teams are focusing on human factors, the other are difficult to operate
-
you can access avatar from anywhere in the world and feel as if you where that avatar i
В конце мая, на ICRA, мы ожидаем от организаторов анонс описаний тестовых сценариев, о чем расскажем в отдельной статье. Сегодня наша команда готова к новым свершениям. Пишите мне напрямую (i@dtlabs.tech), если вам интересна тема аватаров и вы знаете кого-то, кто хотел бы усилить нашу команду в этом международном соревновании.
PS: Также, можно присоединиться и к разработке продукта, который создает компания в сфере аватара. К моменту завершения соревнований мы планируем перевести разработку аватара как продукта в Стамбул и в Austin, штат Texas, так что в нашей лабе в Москве можно попробовать себя в работе над аватаром примерно до конца 2022 года.