Как Dragon Tree Labs вышла в финал $10M XPRIZE ANA Avatar и наша стратегия на Финал

04.05.2022

В данной статье хочу рассказать о нашем опыте подготовки и выступления на полуфинале 4-летнего соревнования $10M XPRIZE ANA Avatar по созданию аватар-систем, а также о планах на финал. Конкурс посвящен созданию удаленно-управляемых аватаров, позволяющих человеку физически присутствовать в любой точке пространства, где есть интернет.

Оценку делают двое судей: оператор и реципиент, которые находятся в разных комнатах. Оператор присутствует в комнате реципиента через аватар. В рамках разных тестовых сценариев оператор и реципиент общаются друг с другом, и оператор может полноценно взаимодействовать с предметами из пространства реципиента.

Полуфинал соревнований состоялся в сентябре 2021 года в Майами, по итогам выступления наша команда Dragon Tree Labs по баллам занимает 2-е место среди 15-ти команд, прошедших в финал. Ожидаем, что сам финал пройдет в начале ноября в США.

На этом этапе мы готовим несколько экспериментальных улучшений относительно модели, представленной в полуфинале, и настроены на призовые места. Нам интересно привлечь к проектной работе над аватаром инженеров с опытом в областях:

audio engineering: stereo live streaming (in/out) of dynamic scene
(задачу можно решать как захватом реального стерео, так и синтезом из моно через локализацию положения головы)
ultra–low latency WebRTC: streaming 4k (in/out), wifi tuning
realtime video editing: имитация фовеального зрения (no-headset virtual monitors)

За выход в финал наша команда получила 133 тыс. долл. призовых, которые сейчас мы используем на подготовку к финалу. Призовые за победу в финале составят 8 млн. долл., которые будут распределены между 3-мя командами-победителями.

Что ожидаем в финале конкурса?

Из описания потребностей понятно — мы хотим отказаться от VR шлема как от интерфейса управления оператора и передавать единое (merged) панорамное звучание и видео изображение пространства, усиливая для оператора ощущение присутствия в удаленном пространстве со своим собеседником.

Проходя полуфинальные тесты, мы увидели большой trade-off, который делает команда, используя VR-headset:

С одной стороны, оператору удобно пространственно ощущать себя в удаленном месте за счет того, что вращения головой синхронизировано с перемещением стереокамеры;
С другой — реципиент в этом случае не может видеть лицо оператора, теряется eye-contact, потому как лицо закрыто шлемом. В результате реципиент вынужден воспринимать оператора через статичное фото изображение.

В результате реципиент может фокусироваться лишь на том, как выглядит и двигается аватар, а не человеке, находящемся “позади” аватара. Поскольку целью конкурса является улучшение human-to-human remote interaction (а не human-machine), то, на наш взгляд, путей два: либо средствами CV синтезировать взгляд глаз оператора, либо убирать шлем и стримить реальный взгляд.

Facebook Reality Lab экспериментирует с первым подходом, а мы выбрали второй путь, и для нас это смелый и решительный шаг. Вопросы и комментарии по названным темам — welcome в комментариях.

Помимо перечисленных областей мы приглашаем к коллаборации industrial designers (и студии), которым интересно заявить о себе на международной арене. Мы планируем делать “панцирь” на плечевой пояс, грудь, руки-манипуляторы и голову, так чтобы это не было похоже ни на робота, ни на человека, а воспринималось как симбиоз человека (оператора) и его универсального электронного тела. Например, так:

Как мы это видим: по запросу мы готовы прислать эскизы корпуса-рамы аватара с размерами, и далее, изготовив прототипы по вашему скетчу/модели, сравнить и выбрать тот, который больше всего понравится. Мы будем рады нанести имя/сайт автора на одну из заметных частей аватара. Пишите на почту.

Базово сама система уже создана, но для выступления в финале мы хотим еще многое успеть. Мы внедряем качественно новые элементы передачи ощущений присутствия в удаленном пространстве, а также стремимся к тому, чтобы реципиент верил в живое общение с оператором. Консультации и мнения экспертов в области телеуправления (телеприсутствия) и, особенно, в области передачи силомоментной обратной связи — приветствуем, и приглашаем провести предварительные испытания в лаборатории в Москве, усилить виртуальную команду.

Каким был Джонни в полуфинале конкурса

Итак, расскажу о том, как мы создавали Джонни и что поняли про разработку таких новых систем. Идеологическую работу над аватаром мы начали в середине 2019-го года, когда успели заскочить в последний вагон, подав заявку на участие в конкурсе и оплатив взнос участника. Тогда наш сформированный концепт базировался на продвинутых платформах и манипуляторах (Spot от Boston Dynamics, манипуляторы Universal и тд), где наш основной вклад заключался в разработке дата-костюма для управления этой системой. Но быстро стало понятно несколько вещей:

Такие платформы сложно (а некоторые невозможно) приобрести, особенно с учетом доступных энтузиастам бюджетов,
а во-вторых: перевозить такие системы на конкурс и обратно — очень сложная задача.

После того, как организаторы озвучили возможные сценарии для сравнения аватар-систем разных команд, мы приняли решение с нуля собрать аватара из доступных нам компонентов, способного выступить в полуфинале конкурса. Организаторы предложили 100-бальную шкалу оценки систем во время выступлений, и мы принялись максимизировать баллы в каждом сценарии выступления. Предложенные сценарии были направлены на аспекты перемещения физических действий человека через интернет, а также эмоциональный аспект взаимодействия через аватара:

Игра в собирание детского пазла с реципиентом
Совместный осмотр музейного экспоната, обсуждения веса и материала

Совместное празднование сделки, нужно поднять бокал и отметить событие привычным нам «cheers»

На первый взгляд, тривиальная задача, соединить радионяню, манипулятор и колесную базу и управлять всем через интернет.

В одной из студенческих лабораторий была найдена колесная база с шеей на ременном приводе, экспериментально соединенных с VR–шлемом, которую автор шутливо называл Джонни. Далее несколько раз менялось тело Джонни, а торс — робот Reachy с одной рукой — мы смогли приобрести у французской компании Pollen Robotics, которая также принимает участие в конкурсе $10M XPRIZE ANA Avatar, и была рада, что ее продукт интересен и другой команде. Везти пришлось поездом(!) в ручной клади, чтобы успеть оттестировать и заинтегрировать за 3 месяца до финала.

Процесс интеграции двух изначально несовместимых систем был сложным, результатом которой стала наша собственная система управления роботом Reachy, его головой и рукой. Мы создали свой собственный интерфейс передачи стерео-видео, которое созерцал Reachy, в VR шлем и соединили с VR-контроллерами Oculus для управления манипуляторами в реальном времени.

Еще до покупки Reachy мы вели разработку собственного манипулятора, который должен был выдерживать нагрузку в несколько килограмм, но при этом оставаться в режиме consumer electronics, а не industrial типа UR. За 3 месяца до выступлений мы еще игрались с фанерным прототипом данного манипулятора 🙂 естественно это приводило к дикому тремору.

Покупая Reachy, мы рассчитывали, что более антропоморфная рука сможет стабильно взаимодействовать с предметами и передавать эмоции, но в процессе тестов увидели, что с тяжелыми предметами она не способна справиться и часто отказывала при нагрузках. Обе руки работали нестабильно, поэтому вторая рука всегда служила бэкапом первой для выполнения разных сценариев — мы всеми силами пытались перестраховаться. Рука Reachy, будучи более антропоморфной, должна была отвечать за передачу эмоций оператора жестами.

В итоге лишь на несколько дней до вылета в Майми к телу Джонни мы добавили еще один стабильно работающий / управляемый манипулятор. На выступлении Джонни имел 2 руки, которые обладали разной функциональностью, от взвешивания предметов и переноса тяжелых объектов, до приятного помахивая «hello» собеседнику. За 3 месяца тестов моторы Reachy “устали”, и добиться стабильной передачи движений стало совсем непросто, поэтому вторая рука нас спасла.

Стоит отметить, что судьи оценивали не только техническую составляющую и безупречность выполнения сценариев и надежность системы. Эстетический аспект, удобство управления и простота обучения сыграли огромное значение в получении высоких оценок. Для Джонни мы сшили кастомный смокинг с бабочкой, в котором он и выступил в Майми.

О команде, которая сделала ЭТО

В нашей команде не было экспертизы по многим областям разработки, поэтому мы привлекали проектные студии. Нас спасло то, что мы смогли найти и объединить людей, которые не были знакомы еще 3 месяца назад. Но также это наш огромный фейл. Более 2/3 команды работало на подряде и было очень непросто донести цели, оцифрованные критерии оценки сценариев, к которым мы стремились как команда.

В прошлом году нашу разработку можно сравнить с яхтой, которой управляет сразу несколько капитанов со своими командами, которые предпочитают сначала выбрать направление, настроить паруса, а потом уже обсуждать с другими капитанами «А куда же хочется приплыть, что максимизируем?» Не скрою, это было стрессово.

Для проектных студий обычно необходимо привычное ТЗ, четкое описание входящих данных и ожидаемого результата. Доработки и внесение изменений после тестирования негативно влияли на их мотивацию. Также у студий обычно несколько проектов и, несмотря на уникальность задачи, нам было сложно конкурировать за дополнительное внимание к нашему проекту. Весь процесс усложняется тем, что команды находились в разных городах, не сидели рядом друг с другом. Мы устраивали съезд раз в две недели, чтобы в лаборатории провести тесты, аналогичные тем, что будут в полуфинале. Это очень помогло сблизить позиции, хоть тесты и имели не только формальную оценку “получилось/нет”, но и качественную “удобнее/запутаннее”; они давали понимание что сделано и как надо переделывать. В итоге, накал эмоций дал хороший результат в плане самоотдачи и эмоции удавалось свести в конструктивное русло. Но, в то же время, на мой взгляд, за это второе место мы заплатили слишком высокую цену: как говорится, “осадочек остался” и после полуфинала ребятам было тяжело общаться.

Вся интеграция уперлась в экспертизу пары человек in-house команды, а эффект был ожидаемый: у каждой команды разработчиков все работало, но вместе не запускалось. Из-за разницы часовых поясов, мы ночами запускали и тестировали Джонни в удаленном режиме, параллельно создавая мануалы для судей. Из полученных призовых, полученных за выход в финал, мы выделили сумму на премии тем, кто особенно сильно себя проявил и сделал наше участие в финале возможным. Мы очень благодарны всей команде, и in-house, и проектной, что полуфинал случился и ребята это вытянули.

Подготовка к финалу

Полуфинал случился и по scoring points мы заняли 2-е место! Сегодня мы иначе подходим к разработке. Проектом по конкурсу управляет очень опытный разработчик, которого мы встретили уже после полуфинала. Он ранее участвовал в Google Lunar X Prize и далее будет являться техническим лидером в проекте. Он привлекает к проекту тех, кто хорошо знаком с разработкой сложных систем и обладает опытом интеграции новых людей в актуальные задачи проекта.

Сегодня мы активно готовимся к финалу, хотя кейсы финальных тестов еще не объявлены. Организаторы планируют опубликовать тестовые задания для финала в конце мая (за 6 месяцев до финала).

Немного о том, что такое Human-to-Human communication. На первый взгляд, тривиальная вещь, мы все знаем как общаться 🙂 а еще лучше можем объяснить другим то, как общаться правильно и как неправильно). Но наделить машину такими характеристиками, чтобы, общаясь через нее, мы могли не замечать роботизированную конструкцию, а фокусироваться на живом общении с человеком — это уже задача следующего порядка. Для этого очень важно распознать и передать эмоции от живого общения и транслировать их в дизайн, способы передачи видео и звука, натуральное движение манипуляторов, формы пальцев, скорости движения и поворотов платформы и многое другое. Сделать это так, чтобы взаимодействие больше воспринималось естественным проявлением жизни человека и меньше кибер–панком.

По итогам полу-финальных тестов судьи XPRIZE достаточно четко суммировали вопросы, по которым можно оценить реалистичность взаимодействия. Я не стал их переводить на русский, чтобы не потерять заложенный смысл:

how we communicate with one another
how to bring 2 people into a shared physical space
do i feel like you are here?
in order to be successful at Finals, we need to get to levels, where we are building relationships
are we achieving emotional connections?
it’s not about interacting with a robot, but interacting with a person
it’s about connecting people
a lot of teams are focusing on human factors, the other are difficult to operate
you can access avatar from anywhere in the world and feel as if you where that avatar i

В конце мая, на ICRA, мы ожидаем от организаторов анонс описаний тестовых сценариев, о чем расскажем в отдельной статье. Сегодня наша команда готова к новым свершениям. Пишите мне напрямую (i@dtlabs.tech), если вам интересна тема аватаров и вы знаете кого-то, кто хотел бы усилить нашу команду в этом международном соревновании.

PS: Также, можно присоединиться и к разработке продукта, который создает компания в сфере аватара. К моменту завершения соревнований мы планируем перевести разработку аватара как продукта в Стамбул и в Austin, штат Texas, так что в нашей лабе в Москве можно попробовать себя в работе над аватаром примерно до конца 2022 года.

Источник

Как Dragon Tree Labs вышла в финал $10M XPRIZE ANA Avatar и наша стратегия на Финал

Читайте также

Паблик ВКонтакте

Последние посты