Улучшение роботического зрения: движение глазами (саккады)

04.07.2024

Современный мир пока сложно назвать эпохой робототехники. Да, есть много роботизированных устройств, помогающих как в быту, так и на производстве, множество разработок и идей, но для полноценной реализации роботов в стиле Айзека Азимова предстоит преодолеть немало сложностей. Одной из таких является зрение. Современные камеры, хоть и обладают невероятными возможностями, все же несравнимы с человеческим глазом. Наши глаза совершают мелкие непроизвольные движения (саккады), дабы поддерживать четкое и стабильное изображение с течением времени. Ученые из Мэрилендского университета (Колледж-Парк, США) разработали камеры, имитирующие саккады, что разительным образом улучшает их способность отслеживать передвигаемые объекты. Из чего сделаны новые камеры, как именно они работают, и насколько они эффективны? Ответы на эти вопросы мы найдем в докладе ученых.

Основа исследования

Изображение №1

С позиции зрения люди превосходят даже самых продвинутых роботов. Характерной чертой человеческого зрения являются фиксационные движения глаз, представляющие собой небольшие непроизвольные перемещения глазного яблока. Самые крупные из этих движений глаз называются микросаккадами. Они гарантируют, что зрение не угасает во время фиксаций, генерируя движение и стимулы в зрительных нейронах, а также улучшая восприятие пространственных деталей. Без микросаккад человек не может поддерживать восприятие статичных объектов (изображение №1 и видео №1).

Видео №1

Биологический датчик визуального движения, известный как кремниевая сетчатка, датчик динамического видения (DVS от Dynamic Vision Sensor) или камера событий, в последнее время привлекает все большее внимание в робототехнике. Используя аналоговые микросхемы в каждом пикселе, она может достигать временного разрешения в несколько микросекунд и имеет гораздо более высокий динамический диапазон, чем стандартные камеры. Камеры событий продемонстрировали большой потенциал во многих задачах визуальной навигации, включая динамическое обнаружение препятствий, локализацию в сложных условиях освещения и т.д. Однако, наряду с этими функциональными преимуществами, некоторые из их природных свойств также создают уникальные проблемы.

Камеры событий реагируют только на движение. Событие в пикселе срабатывает, когда логарифм интенсивности изменяется на определенный порог. Таким образом, считывания происходят по краям изображения, но зависят как от движения, так и от текстуры сцены. Никакие события не записываются на краях, параллельных движению камеры, и поэтому камера событий, движущаяся горизонтально, не «видит» горизонтальные края сцены. В результате камеры событий не создают стабильную и постоянную текстуру и не могут постоянно поддерживать высокий уровень выходной информации, что очень затрудняет точную и долгосрочную ассоциацию данных. Однако ассоциация данных важна для большинства алгоритмов, используемых в системах визуального восприятия роботов, таких как оценка оптического потока или отслеживание функций.

В последнее десятилетие во многих работах предпринимались попытки устранить эту проблему с помощью программных подходов. Большинство методов ассоциации данных на основе событий основаны на таких функциях, как угловые точки и оптический поток. Однако из-за различного внешнего вида текстуры обнаружение и отслеживание функций не являются точными и стабильными. В последние годы некоторые работы связывали события с предыдущими данными, сохраненными либо в форме 2D/3D карт событий, либо в форме реконструированных изображений интенсивности, и оптимизировали соответствие между новыми и сохраненными данными. Поддерживаемые карты или изображения содержат больше информации и имеют повышенную стабильность текстур, что приводит к более надежной работе визуализации. Однако эти методы страдают от шума, когда камера событий движется медленно или стоит на месте. Из этих примеров следует вывод, что проблема лежит не в плоскости алгоритмической реализации, а физических возможностей сенсоров, т. е. камер.

Попытки решить эту проблему со стороны «железа» увенчались незначительным успехом. В некоторых исследованиях камеры событий интегрировались с другими активными датчиками, такими как структурированный свет или лазеры, чтобы облегчить обнаружение событий независимо от движения. В этих исследованиях представлены специализированные конфигурации датчиков, которые демонстрируют впечатляющие результаты в таких задачах, как оценка глубины, 3D-реконструкция и оценка нормалей поверхности.

Однако уникальные настройки ограничивают их адаптируемость к различным приложениям. Более того, эти конфигурации, как правило, более восприимчивы к конкретным условиям освещения и типам материалов, что ограничивает их более широкое применение. Некоторые предыдущие работы имитировали механизм микросаккад человека, вводя дополнительное движение в систему камеры событий. Встряхивая камеру событий и вводя движения в разных направлениях с помощью механизма поворота и наклона, можно было создавать саккадоподобные движения, и больше информации (событий) можно было записать из нескольких саккад. Однако дискретные движения датчиков сложно реализовать в робототехнических системах. Это связано с существенной инерционностью системы электронного восприятия. Достижение высокочастотных вибраций требует значительного крутящего момента, чего сложно достичь с помощью доступных в настоящее время приводов.

Авторы рассматриваемого нами сегодня труда заявляют, что их основная цель — разработать аналогичный вышеописанным механизм искусственной микросаккады (AMI от Artificial MIcrosaccade), который изменяет направление между текстурой сцены и движением изображения. Хотя это можно сделать с помощью саккад, этого также можно достичь, манипулируя направлением падающего света. Более того, если направлением падающего света можно будет управлять непрерывно, а не дискретными шагами, эффективность также будет повышена.

В своем труде ученые выявили и устранили фундаментальные проблемы достижения точной и стабильной ассоциации данных, управляемой событиями, с точки зрения совместной разработки аппаратного и программного обеспечения. Вместо того чтобы просто копировать природу, ученые предложили вдохновленное природой, но более эффективное решение, которое использует механизм AMI для управления направлением падающего света, названное камерой EVent с искусственным микросаккадным усилением (AMI-EV от Artificial MIcrosaccade-enhanced Event).

Изображение №2

AMI-EV активно воспринимает визуальную информацию, используя вращающуюся клиновидную призму перед камерой событий. Активно инициируя события в областях с высокой пространственной частотой, таких как края, AMI-EV поддерживает внешний вид текстуры и высокую информационную отдачу, даже когда датчик не движется. На 2A показано аппаратное обеспечение, на 2B — преломление клинового механизма, а на 2C — визуализация (видео №1).

Результаты исследования

Для генерации событий на всех краях был использован принцип работы клино-призматического дефлектора. Когда призма вращается, она активно регулирует направление падающего света (2B). В начале процесса клиновидная призма имеет определенную ориентацию и отклоняет падающий свет на фиксированный угол (2B(i)). Затем исполнительный модуль приводит модуль оптического дефлектора во вращение вдоль оси Z камеры (z_c), чтобы падающий свет постоянно менял свое отклонение (2B(ii)). Это позволяет падающему свету постоянно генерировать события, создавая движение в плоскости изображения по круговой траектории (2B(iii)). В результате в камере создается постоянно меняющееся вращательное движение. Поскольку AMI находится во всех направлениях плоскости изображения, выходной поток событий содержит всю информацию о границах сцены (2C и 2D).

По сравнению с предыдущими работами, в которых вместо призмы перемещалась камера, движущиеся части исследуемой системы не содержат хрупких компонентов, таких как камера. Это делает ее более устойчивой к высокоскоростному вращению. Более того, система работает при вращении с постоянной скоростью, которое является более плавным движением, чем колебательное движение, рассматриваемое в предыдущих исследованиях.

Еще одной важной частью предлагаемой программной среды является компенсация AMI. Это одно из основных преимуществ данного подхода по сравнению с предыдущими работами, которые неизбежно страдают от размытия изображения при движении и от снижения точности. Глядя на изображение, созданное путем объединения событий за небольшой интервал времени, которое ученые назвали накопленным изображением событий (2C), наблюдаются размытые границы при отсутствии компенсации движения. Чтобы получить четкие края, события, вызванные одним и тем же направлением входящего луча света, должны быть перемещены в один и тот же пиксель. Это требует калибровки ориентации клина и компенсации пространственного смещения событий, вызванного движением клина. Учитывая, что система привода оснащена датчиком абсолютного положения (поворотным энкодером), параметры компенсации необходимо калибровать только один раз, и их можно использовать непосредственно для последующих записей.

Чтобы проверить эффективность предлагаемой системы в улучшении текстур, ученые провели эксперименты с тремя сценариями: поток событий, накопленные изображения событий и восстановленные изображения интенсивности. В каждом эксперименте производительность системы проверялась на стандартной камере событий (S-EV). Для всех случаев рассматривались два сценария движения: отсутствие движения и движение с 6 степенями свободы. Все данные были собраны с использованием специализированной платформы, оснащенной камерами S-EV, AMI-EV и камерой Intel Realsense D435.

Поток событий — это фундаментальное представление данных о событиях, на основе которого формируются все остальные представления событий. Следовательно, повышение качества потока событий может существенно улучшить производительность роботизированной системы восприятия. В этом эксперименте ученые стремились продемонстрировать, что их система может генерировать поток событий более высокого качества, содержащий больше информации об окружающей среде, чем S-EV.

Качество оценивалось с использованием распределения точек — распространенной метрики для оценки качества 3D-облаков точек. Предыдущие работы по обработке пространственного облака точек показали, что равномерное распределение точек по поверхности окружающей среды является предпочтительным, поскольку это указывает на то, что облако точек захватило все необходимые данные. В случае пространственно-временного облака точек или потока событий распределение точек определяется как структурой сцены, так и движением. Однако ту же метрику все равно можно использовать, если применить к сцене ограничения. Если сцена статична и все края имеют одинаковое изменение освещенности, распределение точек определяется только движением камеры.

В этом сценарии более узкое распределение означает, что существует более высокая доля событий с одинаковой плотностью. Это приводит к более равномерной плотности событий в потоке, что приводит к более стабильному представлению функций сцены, на которое меньше влияет движение камеры. Таким образом, однородность потока событий позволяет измерить влияние движения камеры на выходные данные.

Изображение №3

В эксперименте использовалась KDE (от Kernel Density Estimation, т.е. ядерная оценка плотности) для расчета плотности событий в их местоположениях. Дисперсия распределения KDE служит индикатором однородности плотности событий в месте их возникновения. Меньшая дисперсия предполагает, что большее количество событий имеет одинаковую плотность, что приводит к более стабильному представлению особенностей сцены. Среда эксперимента содержала края, ориентированные в разных направлениях и равномерно распределенные по всей территории. На 3D показано, что AMI-EV обеспечил более равномерное распределение точек, чем S-EV, с дисперсией 0.196 по сравнению с 0.425 для S-EV. Это указывало на то, что выходной поток событий AMI-EV был более стабильным. Кроме того, данные AMI-EV имели более низкое соотношение компонентов с низкой плотностью, которые, скорее всего, связаны с шумом и предоставляют мало полезной структурной информации.

Накопленное изображение события является наиболее часто используемой визуализацией в задачах машинного зрения, основанных на событиях. В этом исследовании ученые показали, что накопленные изображения событий, созданные их системой, обладают превосходной стабильностью и меньшей зависимостью от движения камеры.

В ходе эксперимента ученые сначала извлекли края изображений в оттенках серого с помощью детектора границ Канни. Поскольку движение было небольшим, а освещение стабильным, их использовали как основу для границ окружающей среды. Затем была применена регистрация изображений для согласования изображений между S-EV, AMI-EV и базовыми данными. Наконец, ученые измерили производительность захвата краев с использованием двух показателей: оценки оптимальной шкалы набора данных F1 (ODS-F) и энтропии (3A, 3B, 3E). Оценка ODS-F — это широко используемый показатель для задач обнаружения краев, тогда как энтропия — широко используемый параметр для количественной оценки информации, присутствующей в изображении. Оба показателя положительно коррелируют с полнотой текстуры в экспериментах. Судя по рисунку, AMI-EV показал стабильную и полную запись краев, когда камера находится в движении. Кроме того, было видно, что выходные данные AMI-EV меньше зависят от движения камеры, чем выходные данные S-EV.

На 3A и 3B система продемонстрировала более высокие и более стабильные показатели ODS-F, что можно объяснить механизмом AMI. В определенных моделях движения, таких как второй снимок на 3B, где движение параллельно большинству краев окружающей среды, записи S-EV могут сильно пострадать, тогда как исследуемая система остается стабильной. Более того, как показано на 3B, система добилась существенных улучшений показателей энтропии изображения по сравнению с S-EV. Это указывает на то, что она более эффективно записывала полную информацию о краях.

Улучшение качества восстановленного изображения интенсивности имеет решающее значение для зрения роботов на основе событий, поскольку такое представление необходимо для таких задач, как генерация видео с высокой частотой кадров. В ходе эксперимента ученые сначала реконструировали видео с помощью камер событий со скоростью 1000 кадров в секунду, что является типичной частотой кадров, используемой при высокоскоростной визуализации. Затем для количественной оценки качества изображения была использована программа оценки естественного качества изображения (NIQE от Natural Image Quality Evaluator), которая интуитивно оценивает, насколько естественно изображение (3C и 3F).

На 3F показана метрика NIQE, рассчитанная за определенный временной интервал, с выделенными двумя временными точками (T1 и T2), как показано на двух снимках на 3C. В момент Т1 система статична, а в момент Т2 она движется. Видно, что обе камеры демонстрируют удовлетворительную производительность реконструкции изображения при движении робота (правая часть 3C). Предложенный метод достиг более высокой производительности, поскольку он может предоставить больше информации в областях, где отсутствует движение камеры, например, на горизонтальных краях при повороте робота. Когда робот неподвижен, производительность S-EV снижается из-за затухания восприятия, как показано в левой части 3C. С другой стороны, механизм AMI эффективно решает проблему угасания восприятия, активно предоставляя больше информации об окружающей среде (видео №2).

Видео №2

В редких случаях движение призмы сводит на нет оптический поток, вызванный движением камеры, что приводит к небольшому количеству событий. В таких сценариях производительность AMI-EV незначительно снижается. Например, на 48-й секунде в видео №2 есть кадр, в котором возникает явление затухания восприятия, особенно заметное в месте расположения логотипа «FAST Lab».

Изображение №4

Следующие эксперименты демонстрируют эффективность предлагаемой системы обнаружения и сопоставления признаков. Это наиболее типичные задачи низкоуровневого зрения, а также основные строительные блоки для различных приложений робототехники. Обнаружение и сопоставление признаков привлекают все больший интерес из-за преимуществ датчика благодаря широкому динамическому диапазону (HDR от High Dynamic Range) и высокому временному разрешению. Однако производительность существующих методов зависит от движения камеры. Исследуемая система обеспечивает высококачественные признаки, независимые от движения камеры, и сохраняет преимущества камер событий (видео №3).

Видео №3

Среды, использованные в экспериментах, показаны на 4A. Ученые использовали четыре типичных сценария: структурированная среда, неструктурированная среда, сложная среда освещения и динамическая среда. Первые три сценария использовались для обнаружения и отслеживания угловых объектов, а последний — для обнаружения и сопоставления объектов движения, также известного как сегментация движения. Для всех экспериментов ученые сравнивали свою систему с полутоновыми камерами и S-EV. Признаки были извлечены напрямую из асинхронного потока событий без какого-либо накопления, сохраняя высокое временное разрешение данных (порядка микросекунд). В этих экспериментах угол клина был установлен на 1.0°, а частота вращения составляла 12 Гц, что было достаточно для компенсации движения на используемой скорости.

Для оценки обнаружение и отслеживание углов были использованы три экспериментальные среды, показанные на 4A. После генерации AMI угловые события были извлечены с использованием широко используемого детектора углов на основе событий. Далее извлеченные признаки компенсируются, чтобы исключить эффект вращения клина. На 4B показано, что система обнаружила и отслеживала больше угловых элементов и предоставила больше информации, чем S-EV, во всех трех сценариях. Текстура в S-EV стала нестабильной из-за изменения движения, что привело к неполному обнаружению углов и нестабильному отслеживанию. Кроме того, система вместе с S-EV превзошла стандартную камеру в сложных сценариях освещения благодаря HDR датчику событий, как показано на 4B(iii). Количественные результаты, представленные на 4B(iv), продемонстрировали, что система достигла значительно более длительного срока службы отслеживания, чем SEV, хотя и за счет небольшого снижения точности (~ 1.5 пикселей). Ошибка точности связана, главным образом, с численными вычислениями и несовершенной тактовой синхронизацией, возникающей во время компенсации AMI. Следовательно, ошибка не зависит от движения камеры. Более того, исследуемая система и S-EV имели заметно более высокую скорость обновления, чем стандартные камеры, что имеет решающее значение в высокодинамичных сценариях, как показано на 4B(v).

Камера событий хорошо подходит для сегментации быстродвижущихся объектов и уже имеет широкий спектр применений, включая динамический обход препятствий и высокоскоростной подсчет. Данный эксперимент был направлен на то, чтобы продемонстрировать, что разработанная система и S-EV имеют лучшую производительность для этой задачи, чем стандартные камеры, и дополнительно введенное движение в системе не влияет на производительность.

Цель эксперимента — отделить от фона самостоятельно движущиеся объекты. В эксперименте камера создавала движение на заднем плане, в то время как отдельно брошенный мяч двигался независимо. Для сегментации движения на S-EV и AMI-EV ученые адаптировали методы, которые могут предоставлять данные для каждого события сегментации. В частности, ученые использовали идею компенсации движения камеры путем максимизации резкости изображений и обнаружения движущихся объектов как нерезких областей с использованием методов кластеризации. Для стандартной камеры был применен один из современных методов в качестве эталона, который обнаруживает быстродвижущиеся объекты как усеченную функцию расстояния до траектории путем обучения на синтетических данных.

Сравнивая результаты S-EV и AMI-EV на 4C, можно заметить, что введенное движение не влияет на точность и надежность предлагаемой системы в задачах сегментации движения. Однако стандартная камера страдает размытостью изображения при движении и низким временным разрешением и не может эффективно захватывать информацию о движении, что приводит к снижению производительности.

Изображение №5

Следующий этап исследования был нацелен на оценку возможностей системы в задачах по обнаружению человека и оценке его положения. Ученые использовали один из самых популярных алгоритмов, называемый OpenPifPaf, для обнаружения человека и оценки позы. Точность и надежность оценивались с помощью параметров «Пересечение через объединение» (IoU от Intersection over Union) и «Процент обнаруженных соединений» (PDJ от Percentage of Detected Joints). Эти оценки производятся в зависимости от частоты кадров в секунду, которые может генерировать алгоритм преобразования событий в видео (E2VID). Как показано выше, AMI-EV продемонстрировал лучшую производительность при различной частоте кадров. При использовании системы частоту кадров можно настроить существенно выше, чем для S-EV, при этом сохраняя качество изображения (видео №4).

Видео №4

Изображение №6

В заключение, чтобы облегчить будущие исследования, ученые также разработали симулятор, код которого доступен по ссылке. Симулятор был основан на предыдущей работе WorldGen, которая позволяет создавать фотореалистичные трехмерные сцены, при этом пользователь может контролировать такие функции, как текстура сцены, а также свойства камеры и объектива. Симулятор позволяет пользователю генерировать синтетический AMI-EV для конкретной задачи. На 6A показан пример сцены, созданной для оценки позы человека. Симулятор предоставил синтетические данные AMI-EV вместе со списком визуальных представлений сцены.

Помимо симулятора ученые также предоставили преобразователь для создания синтетического AMI-EV из стандартных наборов данных. Предлагаемый преобразователь поддерживает три типа входных данных: изображения в оттенках серого, изображения в оттенках серого в сочетании с событиями или только события. С помощью соответствующих алгоритмов интерполяции можно создавать видео с высокой частотой кадров. Впоследствии эти видео с высокой частотой кадров передаются в специально разработанный модуль AMI для создания выходного потока событий AMI. На 6B показаны примеры преобразования из двух типичных наборов данных на основе событий, называемых Neuromorphic-Caltech101 и Multi Vehicle Stereo Event Camera Dataset, которые широко используются для оценки задач трехмерного восприятия и распознавания на основе событий.

Для более подробного ознакомления с нюансами исследования рекомендую заглянуть в доклад ученых и дополнительные материалы к нему.

Эпилог

В рассмотренном нами сегодня труде ученые представили новую систему зрения для роботов, вдохновленную саккадами глаз человека.

В основа разработки легла камера событий, которая является достаточно новой технологией, позволяющей лучше отслеживать движущиеся объекты. Однако такие камеры не лишены недостатков. К примеру, им сложно захватывать четкие изображения без размытия, если в кадре происходит много движений. Естественно, для роботов и других автономных систем такая проблема достаточно серьезна, ведь они полагаются на точные и своевременные изображения, чтобы правильно реагировать на меняющуюся окружающую среду.

Авторы исследования нашли решение проблемы в биологии глаз человека и других животных, а именно в микросаккадах. Эти небольшие, непроизвольные и крайне быстрые движения глаз позволяют точно фокусироваться на объекте и его визуальных текстурах, таких как цвет, глубина и тень, с течением времени.

Внедрение микросаккад в камеры было реализовано посредством вращающейся линзы внутри AMI-EV, что позволило перенаправлять лучи света. Непрерывное вращательное движение линзы имитировало движения, естественные для человеческого глаза, позволяя камере стабилизировать текстуры записываемого объекта.

По словам ученых, их разработка может оказаться весьма полезной не только в робототехнике, но и в других приложениях, начиная от автономных автомобилей до лабораторных исследований и микрохирургии.

Немного рекламы

Спасибо, что остаётесь с нами. Вам нравятся наши статьи? Хотите видеть больше интересных материалов? Поддержите нас, оформив заказ или порекомендовав знакомым, облачные VPS для разработчиков от $4.99, уникальный аналог entry-level серверов, который был придуман нами для Вас: Вся правда о VPS (KVM) E5-2697 v3 (6 Cores) 10GB DDR4 480GB SSD 1Gbps от $19 или как правильно делить сервер? (доступны варианты с RAID1 и RAID10, до 24 ядер и до 40GB DDR4).

Dell R730xd в 2 раза дешевле в дата-центре Maincubes Tier IV в Амстердаме? Только у нас 2 х Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 ТВ от $199 в Нидерландах! Dell R420 — 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB — от $99! Читайте о том Как построить инфраструктуру корп. класса c применением серверов Dell R730xd Е5-2650 v4 стоимостью 9000 евро за копейки?

Источник