Робот в лабиринте: обучаемая нейроморфная система

02.02.2022

Одним из фундаментальных столбов научной фантастики (по крайней мере, с точки зрения читателя/зрителя) является робототехника. Если космические корабли, преодолевающие ограничения классической физики, являются символом достижения неведомых научных высот, то роботы часто символизируют превращения человека в Творца. Робот это не просто набор аппаратного и программного обеспечения, это символ сотворения жизни. Но что есть жизнь? А точнее, что можно считать жизнью? Амеба является живым организмом, но люди не особо стремятся создавать роботов по ее подобию. Напротив, мы стремимся создать нечто, что смогло бы конкурировать с нами не только по уровню интеллекта, т.е. объема знаний, но и было способно на мыслительный процесс. Другими словами, многие ученые стремятся создать жизнь по своему образу и подобию, что неминуемо приводит к появлению теологических аналогий. Но, как бы ученый свет не старался на этом поприще, пока что мыслящих роботов нет. Мыслящих, как человек, нет. А вот мыслящих на уровне мыши уже есть. Ученые из Технического университета Эйндховена (Нидерланды) создали робота, который имитирует мыслительные процессы мыши, дабы преодолеть лабиринт. В чем заключается аналогия с мышиным мозгом, способен ли робот принимать полноценные решения, и удалось ли ему найти выход из лабиринта? Ответы на эти вопросы мы найдем в докладе ученых. Поехали.

Основа исследования

Стоит сразу внести немного ясности. Мыслительный процесс — понятие растяжимое. С одной стороны, размышления о том, является ли «Божественная комедия» Данте сатирой на общество, являются примером мыслительного процесса высшего порядка (грубо говоря). С другой стороны, увидеть бегущего на вас оленя и отскочить в сторону, также является мыслительным процессом.

Первый пример относится к чему-то более метафорическому и неосязаемому. Поток мыслей, который может привести гениальному умозаключению, либо к сладкому сну. Второй же пример больше связан с коллективной работой нескольких систем — сенсорной и моторной.

Даже простые беспозвоночные организмы (например, дрозофилы), чьи нейронные цепи легко проследить, демонстрируют обширный репертуар интеллектуального поведения за счет этой сенсорно-моторной системы.

Работа этой системы может быть и запрограммированной (рефлексоподобной), и контекстно-зависящей. Ярким примером интеграции рефлексоподобной системы в роботов является концепция, предложенная Валентино Брайтенбергом, называемая тележкой Брайтенберга*.

Тележка Брайтенберга* — концепция, в которой движение транспортного средства напрямую контролируется некоторыми датчиками, но возникающее поведение может показаться сложным или даже интеллектуальным.

В подобных транспортных средствах примитивные формы интеллекта, которые встречаются у низкоуровневых видов (исследование, избегание и побег), возникают путем объединения сенсорных сигналов и моторных команд через возбуждающие/тормозящие и ипсилатеральные/контралатеральные связи.

Несмотря на умышленную примитивность концепции, она является важной составляющей для понимания того, как сенсорно-моторная система может быть ключом к формированию мышления у роботов.

Куда более продвинутые варианты тележки Брайтенберга, основанные на нейроморфных схемах, объединяют в себе сенсорно-моторную и цифровую системы. Однако, как заявляют ученые, подобные разработки крайне сложны и весьма габаритны. К примеру, робот SpiNNaker на основе кремния, который использовался для сенсорно-моторного обучения, состоит из 48 чипов с 18 процессорами на каждом.

Упрощение сложных систем с сохранением их функциональных возможностей, по мнению ученых, является одним из путей развития робототехники. И это вполне реально, учитывая постоянное появление на свет новых типов материалов, схем и программ.

Одним из самых многообещающих направлений в данной области является органическая электроника. Органические материалы мягкие, а потому их можно создавать в растворе или печатать с относительно низким тепловым балансом, их можно интегрировать на жесткие, а также конформные подложки большой площади. Гибкая и биосовместимая природа и смешанная ионно-электронная проводимость полупроводниковых полимеров также позволяют укреплять связи с биологическими и биогибридными системами.

В рассматриваемом нами сегодня труде ученые описывают концепцию объединения сенсорно-моторной интеграции и локального обучения в рамках определенной поведенческой задачи, выполняемой за счет простой и низковольтной органической нейроморфной схемы. Созданный ими робот учится перемещаться в двумерном лабиринте, за счет обучения органической нейроморфной цепи через прямую обратную связь с сенсорно-моторной системой (1A).

Результаты исследования

Изображение №1

Робот состоит из двух частей: сенсорно-моторной системы вместе с органической нейроморфной схемой, которая работает в аналоговой области, и роботизированного контроллера в цифровой области (1B). При этом обе системы работают автономно.

Роботизированная система воспринимает окружающую среду, собирая оптические и механические сигналы с помощью датчиков отражения и касания, перемещаясь в квазидвумерном лабиринте с помощью двух серводвигателей. Лабиринт приставляет собой набор нарисованных шестиугольников, расположенных как соты.

Цифровой блок управления роботом (LEGO Mindstorms EV3), оптически отслеживает выровненный лабиринт с помощью отражательной способности и передает команды активации на двигатели.

Интеллектуальный модуль EV3.

Двигательные команды непрерывно управляются опто-механическими сенсорными сигналами (т.е. от датчиков отражения и касания), в то время как двигательные действия одновременно модулируют сенсорные процессы. Таким образом, формируется сенсорно-моторная схема в реальном времени.

Аналоговая и обучаемая нейроморфная схема подключается локально в схему и обеспечивает обучение посредством адаптивных сенсомоторных ассоциаций. Нейроморфная система состоит из энергонезависимого и энергозависимого органических синаптических транзисторов MEM (от memory) и OECT (от organic electrochemical transistor) соответственно (1B), которые включены последовательно и, по сути, образуют обучаемый делитель напряжения. Выходное напряжение (V_M) зависит от соотношения сопротивлений между двумя синаптическими устройствами, а также от их сенсорных входных сигналов.

Алгоритм цифрового устройства статичен и, таким образом, создает фиксированные рамки поведения, когда робот приближается к перекрестку в лабиринте. Сам по себе алгоритм не влияет на фактическое направление поворота, но может отдавать предпочтение левому или правому мотору в зависимости от входных переменных, которые временно изменяют распределение мощности двигателя.

Входные переменные предоставляются органической нейроморфной схемой в реальном времени в виде аналогового V_M. Затем V_M оцифровывается аналого-цифровым преобразователем с разрешением 12 бит, который обрабатывается алгоритмом в блоке управления.

При подаче выходного значения V_M на блок управления нейроморфная схема принимает оптический сенсорный сигнал от датчика отражательной способности на затворе G_OECT и механический сенсорный сигнал от сенсорного датчика на затворе G_MEM. Сигнал отражения используется для определения пути лабиринта, а механический сигнал сенсорного датчика представляет собой стимул окружающей среды для усиленного обучения.

Поскольку робот следует по прямой в лабиринте и приближается к перекрестку, фактический результат поворота зависит от мгновенного распределения мощности между левым и правым двигателями. Это мгновенное распределение временно управляется выходным напряжением V_M органической нейроморфной цепи, поскольку она принимает оптико-механические сенсорные входные данные. Из-за «колебательного» сканирования пути лабиринта с помощью алгоритма следования за линией направление поворота на перекрестке является недетерминированным с вероятностью, которая зависит от напряжения V_M (1C).

Органическая нейроморфная цепь состоит из синаптических устройств размером 2 мкм на основе OECT (от organic electrochemical transistor, т.е. органический электрохимический транзистор) (2A). Основой для каналов транзисторов был органический смешанный ионно-электронный проводник, который стробируется через электролит, посему ионный ток затвора может модулировать электрический ток, протекающий через канал. В качестве материала был использован полимер p(g2T-TT). Ионный гель EMIM:TFSI с сополимером PVDF-HFP между каналом и затвором служит электролитом устройства. p(g2T-TT) демонстрирует смешанную проводимость, так как это органический полупроводник с переносом дырок, а также обладает ионной проводимостью.

Изображение №2

Энергонезависимость индуцируется путем обеспечения состояния потенциала разомкнутой цепи от затвора к каналу с помощью аналогового переключателя (т.е. сенсорного датчика), в то время как зондирование электрода затвора напрямую вызывает изменчивое поведение. Ученые отмечают, что для реализации органической нейроморфной схемы возможна монолитная интеграция функций обоих транзисторов (изменчивых/постоянных) с одними и теми же материалами канала и электролита, что значительно упрощает процесс изготовления устройства.

Неустойчивая синаптическая часть обучаемой нейроморфной цепи напоминает OECT. Были получены характеристики транзистора, демонстрирующие надежное переключение при сверхнизких рабочих напряжениях (2В). Например, в случае только OECT рабочие напряжения передачи и выхода составляют < 0.4 В. При последовательном подключении резистора переменной нагрузки RMEM к OECT в топологии делителя напряжения разделение напряжения V_M и, таким образом, транспроводимости зависит от отношения сопротивления OECT к сопротивлению нагрузки, т.е. R_OECT/R_MEM (2C). Соотношение R_OECT/R_MEM в диапазоне от 1 до 100 достаточно для изменения V_M на 0 В и для усиления или даже полного подавления сигнала напряжения передачи (V_{G, OECT}).

Обучаемая нейроморфная цепь реализована с помощью органического искусственного синапса (MEM), который демонстрирует настраиваемые и энергонезависимые состояния проводимости в соответствии с топологией, показанной на 2A. Проводимость синаптического устройства обратимо модулируется серией импульсов напряжения (V_{G, MEM}) на управляющем электроде через аналоговый переключатель (т.е. сенсорный датчик). Синаптическое устройство демонстрирует окно высокой памяти размером > 100х и стабильные множественные состояния памяти (2D).

В обучаемой топологии цепи затвор MEM принимает импульсы обучающего напряжения V_{G, MEM} (1 В в течение ~ 1 с), которые модулируют базовый уровень V_M, а затвор OECT смещается сенсорным сигналом в реальном времени (2E). OECT демонстрирует настраиваемую чувствительность, которая зависит от соотношения сопротивлений двух каналов (R_OECT/R_MEM). Когда R_OECT/R_MEM ≫ 1, _M составляет ~ 0 В, а чувствительность OECT для отслеживания лабиринта минимальна; Через обучение (R_OECT≈R_MEM) чувствительность значительно возрастает.

V_M оцифровывается и передается в блок управления в реальном времени в качестве входных данных для алгоритма статического слежения за линией возможного пути по лабиринту. Статический алгоритм выполняется путем получения динамического ввода от виртуальной машины, который зависит от потока внешнего сенсорного сигнала. Динамический ввод временно изменяет распределение мощности двигателя и, следовательно, рулевое управление на перекрестках в лабиринте. В зависимости от состояния V_M может быть приоритетным либо правый (V_M ≤ 150 мВ), либо левый (V_M ≥ 350 мВ) мотор в точке перекрестка.

Навигация робота в лабиринте достигается путем постепенного формирования зрительно-моторной ассоциации между визуальным сигналом и двигательным действием посредством обучения, что приводит к поведенческому результату (т.е. к выбору куда повернуть на перекрестке; 3A).

Изображение №3

Важно отметить, что перед фазой тренировки зрительно-моторная ассоциация еще не установлена. Хотя визуальные подсказки для навигации присутствуют, нейроморфная цепь инициализируется таким образом, что ее электрическая реакция на подсказки является низкой, не вызывая каких-либо поведенческих результатов. При этом робот направо на каждом перекрестке.

В ходе обучения ассоциация подкрепляется внешним механическим стимулом (т.е. наказанием), когда робот не может выполнить целевое поведение (дойти до выхода или до границы лабиринта). Внешний стимул применяется через сенсорный датчик на затворе MEM (G_MEM), в то время как робот оптически исследует лабиринт через сенсорный сигнал затвора OECT (G_OECT).

На каждом этапе обучения происходит двойная поведенческая адаптация: базовая линия V_M движется вверх по кривой вероятности поворота, и чувствительность к навигационным подсказкам увеличивается. После обучения базовая линия V_M по-прежнему находится в режиме «повернуть направо» кривой вероятности.

Однако, транспроводимость значительно увеличивается, и при наличии навигационной подсказки V_M временно переходит в режим «повернуть налево». Таким образом, формируется зрительно-моторная ассоциация, и визуальные подсказки вызывают поведенческий результат: визуальной подсказки нет — поворот направо; визуальная подсказка есть — повернуть налево. Путь, который необходимо пройти роботу, отмечается с помощью навигационных знаков (т.е. небольшая визуальная метка на перекрестках внутри лабиринта), которые показывают, где нужно повернуть налево (если их нет — направо).

На графике 3B представлена временная реакция виртуальной машины на протяжении всего процесса обучения в корреляции с кривой вероятности поворота. В рамках использованных параметров робот обучался спустя 16 заходов (3C), после чего мог обнаруживать визуальные сигналы навигационных точек (3D) и полноценно проходить необходимый маршрут.

Изображение №4

Выше представлена эволюция обучения робота. Изначально робот не мог пройти заданный маршрут, так как не прошел нужного числа обучающих заходов. Однако, в последствии смог преодолеть лабиринт.

Для более детального ознакомления с нюансами исследования рекомендую заглянуть в доклад ученых.

Эпилог

В рассмотренном нами сегодня труде ученые описывают робота из Lego (Mindstorms EV3), которого они обучили проходить лабиринт. На первый взгляд, это звучит как вполне простая задача, однако не все так тривиально.

Первоначальная настройка робота была такова, что он поворачивал исключительно направо. Каждый раз, когда робот заходил в тупик или отклонялся от заданного маршрута (который ведет к выходу) ему давалась команда вернуться на исходную точку или повернуть налево. Это было своеобразным обучением, пройдя которое робот мог пройти маршрут полностью и без ошибок, т.е. поворачивать направо/налево там, где необходимо.

В качестве подсказок для робота выступали специальные метки, расположенные на перекрестках внутри лабиринта (напоминающего нарисованные соты). Роботу необходимо было считывать этот визуальный сигнал и принимать решение, куда повернуть (если метка есть — значит поворот налево).

Мозгом робота выступила обучаемая нейроморфная цепи, для реализации которой вместо стандартного кремния использовался иной материал — полимер p(g2T-TT). Он не только стабилен, но и «запоминает» большую часть состояний, на которые он был настроен во время обучающих заходов. Это гарантирует, что выученное поведение, которое приводит к успешному прохождению лабиринта, запомнится роботом.

По мнению ученых, их разработка применима далеко не только в робототехнике. К примеру, ее можно использовать в протезировании для усиления связи между телом пациента и бионическим протезом. Еще одним многообещающим применением органических нейроморфных вычислений, лежащих в основе данного исследования, является так называемые периферийные вычислительные устройства, где данные с датчиков обрабатываются локально за пределами облака.

При этом разработчики скромно заявляют, что их роботы пока еще не могут полноценно называться мыслящими, так как полагаются на традиционное программное обеспечение для передвижения. Однако, будущие исследования нацелены на совершенствование нейроморфных сетей, которые смогли бы выполнять более сложные задачи. Если (а точнее когда) ученым это удастся, то робототехника перейдет на новый уровень своей эволюции.

Благодарю за внимание, оставайтесь любопытствующими и хорошей всем рабочей недели, ребята. 🙂

Немного рекламы

Спасибо, что остаётесь с нами. Вам нравятся наши статьи? Хотите видеть больше интересных материалов? Поддержите нас, оформив заказ или порекомендовав знакомым, облачные VPS для разработчиков от $4.99, уникальный аналог entry-level серверов, который был придуман нами для Вас: Вся правда о VPS (KVM) E5-2697 v3 (6 Cores) 10GB DDR4 480GB SSD 1Gbps от $19 или как правильно делить сервер? (доступны варианты с RAID1 и RAID10, до 24 ядер и до 40GB DDR4).

Dell R730xd в 2 раза дешевле в дата-центре Maincubes Tier IV в Амстердаме? Только у нас 2 х Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 ТВ от $199 в Нидерландах! Dell R420 — 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB — от $99! Читайте о том Как построить инфраструктуру корп. класса c применением серверов Dell R730xd Е5-2650 v4 стоимостью 9000 евро за копейки?

Источник

Робот в лабиринте: обучаемая нейроморфная система

Основа исследования

Результаты исследования

Эпилог

Немного рекламы

Читайте также

Паблик ВКонтакте

Последние посты