Акустический рой для локализации и разделения речи: принцип работы конуса тишины

Акустический рой для локализации и разделения речи: принцип работы конуса тишины

Представьте себе комнату в которой находится десять человек. Все они одновременно что-то говорят, а вам нужно из этого звукового оркестра выделить речь конкретного человека. Такая задача сложнее, чем кажется. А если при этом еще и закрыть глаза, т. е. лишить свой мозг визуальных подсказок, то сложность возрастает в разы. Ученые из Вашингтонского университета (США) разработали массив роботов, которые способны самостоятельно и без помощи камер перемещаться по комнате, изолировать речь того или иного человека из говорящей толпы и определять его положение. Как работают роботы, каковы их возможности, и где они могут применяться? Ответы на эти вопросы мы найдем в докладе ученых.

Основа исследования

Грань между наукой и научной фантастикой порой крайне размыта. То, что писателям приходит в голову, крайне часто становится реальностью спустя какое-то время. К примеру, в романе «Дюна» Фрэнка Герберта существовал «конус тишины», позволяющий находящемуся внутри него человеку говорить без боязни, что его услышит кто-то вне конуса. По сути это устройство манипулировало акустическими волнами, для достижения чего необходимо понимать акустические сцены, связывая пространственный контекст с каждым из составляющих звуков. Именно в этом направлении и работали авторы рассматриваемого нами сегодня исследования.

Распределение большого количества беспроводных микрофонов и динамиков по комнате было давней идеей в научных сообществах, изучающих акустику и речь, поскольку это может обеспечить широкий спектр акустических возможностей и потенциальных практических приложений. В отличие от коммерческих интеллектуальных колонок и систем конференц-связи, в которых микрофоны расположены рядом, распределение микрофонов по большей площади обеспечивает возможность локализовать звуки в двухмерном пространстве. Кроме того, распределенная микрофонная решетка имеет больший размер апертуры и, следовательно, может обеспечить лучший пространственный охват и/или разрешение. Такая распределенная система беспроводных микрофонов также может позволить лучше разделить неизвестное количество одновременно говорящих на отдельные аудио потоки, что в сочетании с возможностью локализации говорящих в 2D-пространстве может помочь создать речевые зоны (1A, видео №1–3).

Видео №1

Видео №2

Видео №3

Например, можно разделить речь и сопоставить говорящих, находящихся рядом, с разными зонами разговора; таким образом, решается проблема разделения нескольких диалогов на уровне группы. Эту технологию также можно использовать для создания приглушенных/активных зон, где подавляется/захватывается речь из определенных 2D-областей комнаты. Также это можно внедрить в систему умного дома, где речевая команда может интерпретироваться по-разному в зависимости от двухмерного местоположения говорящего.

Автоматизация распределения таких распределенных массивов беспроводных микрофонов на большой территории имеет решающее значение для адаптации к различным средам и пространственным ограничениям, а также для масштабирования системы за счет количества микрофонов. Как отмечают ученые, для этого необходимо реализовать три важных аспекта. Во-первых, микрофоны должны иметь возможность распределяться по поверхности и адаптироваться к различным условиям и задачам, чтобы эффективно использовать доступное пространство. Во-вторых, учитывая ограниченный срок службы батарей беспроводных микрофонов, их ручное распределение и сбор для подзарядки увеличивает затраты на обслуживание и не масштабируется в зависимости от количества микрофонов. Таким образом, микрофоны должны иметь возможность автоматически возвращаться к базовой станции для подзарядки. В-третьих, чтобы добиться 2D-локализации с несколькими говорящими, нужно, чтобы микрофоны были синхронизированы друг с другом по беспроводной сети и имели возможность самолокализации с точностью до сантиметра.

В рассматриваемом нами труде ученые описывают свой метод реализации вышеперечисленного — акустический рой, в котором крошечные роботы взаимодействуют друг с другом, используя акустические сигналы для навигации по двумерной поверхности (например, по столу) с точностью до сантиметра. Были разработаны методы навигации, позволяющие устройствам из роя распределяться по поверхности, а также возвращаться к зарядной станции, где они могут автоматически заряжаться. Алгоритмы слияния датчиков позволили объединить акустические сигналы и данные IMU (гиростабилизатора) на устройствах для обеспечения 2D-навигации, а также автоматической стыковки с зарядной станцией без использования камер или внешней инфраструктуры. Также были задействованы алгоритмы, предотвращающие падения роботов и восстановление их протоколов после потенциального столкновения с препятствием.

Используя полученную распределенную микрофонную систему, ученые продемонстрировали возможность локализовать и отделять речь из разных 2D-областей. Была создана совместная структура 2D-локализации и разделения речи, в которой используется разделение речи для достижения 2D-локализации с несколькими источниками.

Архитектура системы состоит из двух компонентов. Во-первых, чтобы уменьшить пространство поиска для 2D-локализации с помощью нейронных сетей, запускался алгоритм обработки сигналов с низкой вычислительной сложностью, чтобы сократить пространство поиска, а затем использовать нейронную сеть разделения речи, чтобы найти 2D-местоположения говорящих только в оставшемся пространстве. Во-вторых, в реальных условиях реверберации качество разделения речи может быть плохим из-за остаточных компонентов перекрестных помех между говорящими. Чтобы решить эту проблему, был внедрен механизм внимания между говорящими, используя их предполагаемое двухмерное местоположение для совместного расчета более чистого сигнала для каждого говорящего и уменьшения перекрестных помех.

Результаты исследования

Структура робота


Изображение №1

Акустические роботы основаны на BLE (от Bluetooth lowenergy) модуле, который сочетает в себе микроконтроллер с конденсаторами, генераторами и антенной (1B, 1C). Каждый робот оснащен гироскопом и акселерометром для фородометрии и приводится в действие парой микродвигателей, каждый из которых приводится в действие отдельным драйвером двигателя. Кроме того, каждый робот оснащен парой микрофонов и динамиком, управляемым усилителем D класса с цифровым входом. Для обнаружения краев (например, стола) робот оснащен парой фотопрерывателей с датчиком приближения.

Питание системы обеспечивается литий-полимерной батареей (3.7 В и 100 мАч), а понижающий преобразователь используется для понижения напряжения системы до 3.3 В. Чтобы определить уровень заряда батареи, контроллер может проверять информацию о батарее, такую как напряжение элемента и состояние заряда (SOC от state of charge), с помощью встроенного индикатора уровня заряда.

Основная плата расположена на пластиковом основании, напечатанном на 3D-принтере, на котором также расположены аккумулятор и двигатели (1D). В нижней части робота имеется пара алюминиевых шариков, каждый из которых подключен к основной цепи тонким проводом, проходящим через основание робота. Один шар подключен к заземлению системы, а другой подключен к входу зарядного устройства робота через диод. При размещении на паре проводящих рельсов с потенциалом постоянного напряжения 6 В через шарики и провода протекает ток для зарядки роботов. Габариты каждого робота составляют 3.0 х 2.6 х 3.0 см.

Базовая станция (1E) состоит из въездного пандуса, рифленого извилистого пути и выездного пандуса. Роботы могут войти на станцию через въездной пандус. Оказавшись внутри основания, алюминиевые шарики робота вставляются в рифленую направляющую. Эта дорожка используется для направления роботов вдоль базы и к выходу. По бокам дорожки в определенных местах расположены черные контрольно-пропускные пункты, которые распознаются с помощью фотопрерывателей робота, чтобы сообщить роботу о его положении внутри базы. Наконец, проводящая лента может выстилать пазы платформы и питаться от источника постоянного тока 6 В для одновременной зарядки всех роботов на платформе (1F, 1G).

Роботы передают по беспроводной сети 16-битные аудиозаписи с частотой 48 кГц через Bluetooth на главный компьютер для обработки с целью разделения и локализации речи. Из-за ограничения полосы пропускания Bluetooth в 2 Мбит/с каждый робот сжимает записи в режиме реального времени с помощью кодека Opus. Есть возможность осуществлять одновременную потоковую передачу от 7 роботов на частоте 48 кГц без заметных потерь пакетов, когда аудиозаписи сжимаются до 32 Кбит/с.

Моторика акустического роя


Изображение №2

Акустические сигналы использовались для достижения локализации роя (2A, 2B). Основная идея состоит в том, чтобы передать акустические сигналы с частотой 62.5 кГц для измерения попарных расстояний между роботами и применить алгоритм 2D-локализации для оценки координат робота на основе попарных 1D расстояний.

Чтобы вычислить относительные 1D-расстояния до всех других роботов, робот передает акустический сигнал. Другие роботы измеряют время полета Δt, которое преобразуется в относительное одномерное расстояние как cΔt, где c – скорость звука. Для вычисления времени полета были необходимы эталонные часы, потому был использован алгоритм глобальной синхронизации часов. Ошибка синхронизации никогда не превышала 1 отсчета на частоте 62.5 кГц или около 16 мкс (2C).

Чтобы определить точное время прибытия сигнала при наличии многолучевого распространения в помещении, был разработан алгоритм с двумя микрофонами, который работает на каждом роботе и объединяет сигналы, полученные от двух микрофонов на одном роботе. Были измерены ошибки 1D-локализации в трех различных сценариях, показанных на 2D2F, с близлежащими объектами и стенами. Ошибки дальности 1D для пустого стола и стола возле стен были похожи со средними ошибками 0.48 и 0.45 см и 90% ошибками 1.2 см и 1.1 см соответственно (2G).

Чтобы получить абсолютные двумерные координаты в пространстве базовой станции и решить проблему «длинного хвоста» из-за ошибки одномерной локализации, мы вводим парный конвейер двумерной локализации. Вначале, как показано на 2A, один из роботов остается на платформе. Он проезжает все черные контрольные точки на трассе, издавая по пути акустические сигналы, которые остальные роботы используют для расчета 1D-расстояний от каждой контрольной точки. Это создает виртуальные ориентиры на контрольных точках, которые помогают устранить неоднозначность вращения и переворачивания во время 2D-локализации (видео №4).

Видео №4

Как только робот достигает последней контрольной точки, внешние роботы по очереди издают звуковые сигналы для измерения большего количества парных расстояний в 1D, чтобы повысить точность локализации в 2D (2B). Наконец, рой запускает алгоритм 2D-локализации, чтобы оценить положения внешних роботов. На 2H показано, что для пустого стола и стола возле стен средние ошибки 2D-локализации составили 0.37 см и 0.38 см соответственно. На 2I показано, что ошибки 2D-локализации для столов разных размеров были одинаковыми. Это указывает на то, что механизм локализации может масштабироваться на большие поверхности.


Изображение №3

В качестве показательного примера ученые предлагают рассмотреть рой из N > 3 роботов, размещенных в произвольном порядке на пазах базовой станции, ориентированных в сторону пандуса выхода. Цель — рассеять рой роботов как можно дальше по столу, оставив при этом одного из роботов на базе.

Поскольку рой не имеет предварительных знаний о форме, размере и расположении объектов на столе, была разработана эвристическая стратегия рассеивания роя, основанная на двух принципах: роботы рассеиваются под одинаковыми углами; каждый робот продолжает двигаться, пока он не достигнет края стола или не столкнется с предметом.

Механизм рассредоточения состоял из трех этапов (3A3C). Первый этап — упорядочить и правильно расположить роботов на базе перед их рассредоточением. Поскольку роботы могут быть размещены на базе в произвольном порядке, рой сначала обнаруживает порядок расположения роботов на базовой станции. Движущийся вперед робот сначала сталкивается с роботом, находящимся непосредственно перед ним. Путем выполнения нескольких таких столкновений между разными роботами и использования фотопрерывателей для определения начальной и конечной контрольных точек базовой станции достигается упорядочение роботов внутри базы (3A). Затем роботы располагаются на контрольных точках базовой станции, которые они могут обнаружить с помощью фотопрерывателей. Поскольку роботы могут быть неравномерно распределены по платформе, им недостаточно переместиться к первой обнаруженной контрольной точке, поскольку два робота могут бороться за одну и ту же контрольную точку. Действительно, все роботы, кроме последнего робота в последовательности, движутся вперед, образуя непрерывную цепочку, начиная с пандуса выхода. Затем последний робот движется назад и останавливается на конечной контрольной точке. Наконец, другие роботы один за другим движутся назад, сталкиваются с роботом позади них, а затем движутся вперед и останавливаются на первой обнаруженной ими контрольной точке (видео №5).

Видео №5

Второй этап — рассредоточение роботов по равнораспределенным углам (3B). Однако желаемые направления для первой половины роботов требуют навигации вокруг базовой станции, а затем рассредоточения под правильным углом. Для этого рой сначала создает вехи и направляет роботов к этим вехам путем планирования пути с использованием алгоритма A*. Во время навигации каждый робот отслеживает свое текущее положение, ориентацию (рыскание) и скорость (Xt, θt, Vt), в каждой временной метке t. Роботы используют модель движения на основе IMU для постоянного обновления своих состояний. Чтобы устранить накопление ошибок, присущих навигации на основе IMU, рой использует алгоритм навигации на основе IMU и акустического синтеза. Основная идея заключается в том, что оставшиеся роботы на базовой станции взаимодействуют, становясь ориентирами для акустической локализации. Движущийся робот во время движения посылает акустические сигналы каждые 200 мс, чтобы измерить расстояние до этих ориентиров. Затем он использует эти оценки расстояния для периодической калибровки состояния на основе IMU и корректировки дрейфа во время навигации.

Теперь, когда роботы достигли назначенных контрольных точек, они ориентируются на заданные углы и расходятся от базовой станции. Поскольку каждый робот знает о своей ориентации на определенном этапе, он заставляет свой гироскоп вращаться в желаемом направлении и продолжать движение. Роботы расходятся до тех пор, пока не остановятся. В частности, они используют фотопрерыватели для обнаружения изменений вблизи поверхности и используют IMU для обнаружения препятствий (3C). При обнаружении края стола или препятствия роботы слегка отступают назад, чтобы не упасть за края и не столкнутся с объектом (видео №6).

Видео №6

Роботы могут правильно обнаруживать края стола и реагировать на них на скоростях до 18 см/с и обнаруживать потенциальные столкновения с объектами на скоростях всего 10 см/с. На 3D и 3E показаны пути навигации, выбранные роботами, их поведение вблизи краев и восстановление после столкновений с объектом.

Дополнительно была охарактеризована эффективность распределения роя, для чего использовался коэффициент занятости поверхности. Это соотношение между максимально возможным размером массива, которого можно достичь для данного стола, и фактическим размером массива, используя стратегию распределения. На 3F показано, что коэффициент занятости поверхности превышает 75% по всем направлениям для различной геометрии поверхности.

Наконец, поскольку этап рассредоточения является лишь начальным этапом работы роботов как целостной системы с распределенными микрофонами, он не должен значительно разряжать их батареи. На 3G видно, что процесс рассредоточения потребляет в среднем 22.3 Дж или 1.7% от общего срока службы батареи.


Изображение №4

На 4A4F показаны траектории, по которым роботы возвращаются к базовой станции (видео №7). На разных графиках показаны траектории различных стадий процесса. На каждом этапе один робот возвращается к базовой станции, а остальные действуют как акустические ориентиры. На этих снимках ученые брали движущегося робота, помещали его в другое исходное положение и ориентацию и заставляли вернуться на базовую станцию. На 4G также показан временной интервал маневрирования, выполняемого роботом, когда он приближается к базе, чтобы сориентироваться для стыковки. На 4H и 4I показана энергия, потребляемая во время этого процесса, и время, необходимое роботу для полной зарядки после возвращения на базу, что составляет около 2.5 часов.

Видео №7

Затраты времени на распределение и возвращение акустического роя регистрировали на столе размером 90×45 см. Чтобы рой на базовой станции распределился по поверхности, роботам необходимо сначала определить порядок, в котором они размещаются на базовой станции. Для роя из 7 роботов это заняло около 32 секунд. После этого роботы расходятся по столу один за другим, тратя на это примерно 11.8 ± 7.0 секунд. В общей сложности обнаружение последовательности и распределение роя занимает около 1 минуты 45 секунд.

Чтобы вернуться на базу, роботы сначала перемещались в свободную зону менее чем за 1.5 секунды. Затем робот на базовой станции проходит контрольные точки, издавая по пути акустические сигналы. Время на этот процесс зависит от числа точек, если же их 7, то это занимало порядка 30 секунд. Далее роботы за пределами базы по очереди издавали звуковые сигналы, что занимало около 3.1 ± 0.02 с на робота. Наконец, каждому роботу необходимо один за другим перейти к базовой станции, выполнить маневр предварительной калибровки и успешно состыковаться со станцией. На это уходило 40.4 ± 4.5 с на робота.

Разделение речи и 2D-локализация

В данном труде ученые представили новый алгоритм обработки распределенной микрофонной решетки с использованием акустического роя, который выполняет следующие две задачи: локализация всех говорящих в комнате без предварительного знания об их количестве; вычленение индивидуальных акустических сигналов каждого говорящего человека.

Алгоритм должен быть устойчив к ошибкам положения микрофона и работать с массивами различных форм и размеров даже в реверберирующих реальных средах. Данный алгоритм основан на совместной работе 2D-локализации и разделения речи, в которой используется разделение речи для достижения 2D-локализации неизвестного количества говорящих с несколькими источниками. Вычисленные двухмерные местоположения используются для дальнейшего улучшения качества разделения речи.

Ученые предлагают рассмотреть многоканальную сеть разделения речи, которая извлекает сигнал от говорящего, если обнаружено, что формы сигналов человека совпадают по всем микрофонам, в то время как в противном случае создается нулевой сигнал. Такую сеть разделения источников можно использовать для проверки того, содержит ли каждое локализованное пространство говорящего человека или нет. В частности, можно совместить каналы микрофонов с каждым местом, где может находиться говорящий, путем сдвига во времени. Для этого сигналы микрофонов сдвигаются на основе разницы во времени прибытия (TdoA от Time Difference of Arrival) для каждого местоположения. Значения TDoA представляют собой разницу во времени распространения сигнала от предполагаемого местоположения до каждой пары микрофонов. Если в этом месте есть говорящий, смещенные сигналы будут выровнены по всем каналам, тогда как сигналы из других мест будут невыровненны.

Таким образом, схема разделения, примененная к синхронизированным по времени сигналам, будет генерировать улучшенный речевой сигнал для целевого местоположения. Следовательно, проверяя амплитуду выходного сигнала, можно проверить наличие говорящего человека в каждом месте, чтобы подсчитать всех говорящих, а также получить их двухмерное местоположение.


Изображение №5

Несмотря на то, что целью является 2D-локализация, поиск говорящих происходит в трехмерном пространстве. Это связано с тем, что разница в высоте между говорящими и микрофонами приводит к дополнительным временным задержкам для многоканальных сигналов. Для эффективного поиска говорящих в трехмерном пространстве ученые объединили нейронное разделение речи и традиционный метод локализации источника.

В частности, сначала было сокращено пространство поиска за счет алгоритма фазового преобразования мощности с управляемым откликом (SRP-PHAT от Steered-Response Power Phase Transform) (5A). SRP-PHAT — это метод обработки сигналов, позволяющий добиться грубой локализации источника звука путем анализа разности фаз между всеми парами микрофонов. SRP-PHAT выводит мощность сигналов, сопоставленных с каждой возможной точкой-кандидатом в пространстве поиска.

Исключая область с низкой выходной мощностью, удавалось сократить пространство поиска. Затем использовалась модель на основе внимания для обнаружения потенциального положения говорящего в оставшемся пространстве.

В модели разделения использовалась структура кодера-декодера в стиле U-Net с узким местом преобразователя-кодера, вставленным между ними (5B). Этот преобразователь-кодер использует самовнимание — механизм корреляции между различными частями входной последовательности при прогнозировании или кодировании информации. Он использовался во временном измерении, чтобы закодировать относительную важность высказываний одного и того же говорящего в разные моменты времени и получить более чистый выходной сигнал.

Этот гибридный подход позволяет избежать поиска по всему трехмерному пространству, применяя нейронную сеть к каждому локальному региону, что требует очень больших вычислительных ресурсов. Хотя SRP-PHAT может быть не таким эффективным, как глубокое обучение, он все же может обеспечить приблизительную оценку вероятности присутствия говорящего в пространстве с гораздо меньшей вычислительной сложностью.


Изображение №6

Первым решением для получения изолированных сигналов отдельных обнаруженных говорящих является использование выходных данных сети разделения, используемой для локализации. Однако в реальных условиях реверберации качество выходного сигнала сети разделения, ориентированной на локализацию, может быть плохим из-за остаточных компонентов перекрестных помех между говорящими. Кроме того, этот подход недостаточно использует информацию, полученную из сети 2D-локализации, то есть местоположения других говорящих. Эту информацию можно использовать для совместного расчета более чистых сигналов для всех говорящих и уменьшения перекрестных помех.

Поскольку на этапе локализации определяется количество говорящих (S) и их 2D-расположения, для каждого говорящего производится выравнивание сигналов микрофона (M) по их 2D-положениям и подача полученных сигналов (S×M) в новую модель разделения, как показано на 5C. В этой модели блоки кодера и декодера применяются отдельно к выровненным данным микрофона для каждого из говорящих. Однако блок «узких мест» используется для устранения перекрестных помех. Блок узкого места сначала применяет самовнимание к каждому говорящему, используя конформную сеть во временном измерении, обрабатывая каждого говорящего независимо. Затем он использует преобразователь-кодер, который распределяет внимание по положению говорящего, так что модель коррелирует информацию между различными каналами.

На 6A показан результат эксперимента по разделению для примера синтетической смеси двух источников речи. Точность и полнота подсчета говорящих были выше 89% даже при использовании пяти одновременно говорящих (6B). Медианная и 90-процентильная ошибки локализации 2D-динамиков составляли 9–10 см и 32–36 см для 2–5 одновременных говорящих соответственно (6C, видео №8).

Видео №8

Качество алгоритма разделения оценивалось с помощью масштабно-инвариантного отношения сигнала к искажению (SI-SDR от Scale-Invariant Signal-to-Distorion Ratio). На 6D показано, что тестируемая методика превзошла идеальную маску соотношения (IRM от ideal ratio mask) метода разделения речи Oracle на 4.8 дБ с точки зрения улучшения SI-SDR (SI-SDRi) по сравнению с необработанным смешанным сигналом для случая с пятью говорящими. Сравнение с существующими сетями разделения источников на основе трансформатора (SepFormer) и на основе свертки (Conv-TasNet) показало улучшение в диапазоне входных значений SI-SDR для двух одновременно говорящих (6E).

На 6F показано, что SRP-PHAT может сократить пространство поиска в 446 раз для случаев с двумя одновременно говорящими или в 208 для случаев с пятью. На 6G показано, что алгоритм смог достичь средней ошибки 2D-локализации 25.8 см при наличии ошибок положения микрофона в 4 см, хотя ошибки локализации увеличивались по мере того, как положения микрофона становились менее точными.


Изображение №7

Также было измерено общее время работы системы при обработке 3 секунд входного аудио. Поскольку модель разделения, используемая во время локализации, запускается в каждой точке локализации, она оценивалась с двумя разными наборами параметров. Обе модели имели одинаковую сетевую архитектуру, но меньшая модель имела меньше параметров.

На 7A и 7B показано, что среднее время обработки 3-секундного аудио с помощью меньшей модели составило 1.82 с. Это свидетельствует о том, что система может обрабатывать входящие данные в режиме реального времени. На 7C показано, что использование модели разделения меньшего размера во время локализации не приводит к значительному снижению производительности.

Практические испытания


Изображение №8

Система была проверена в условиях работы на трех разных поверхностях со случайно расположенными объектами, выполняющими роль препятствий (8A8C). Эти объекты создают препятствия между парами роботов, а также между отдельными роботами и говорящими людьми.

Метод акустической локализации использовался для определения положения роботов. На 8D показано, что значения точности превышали 90%, а средняя ошибка локализации во всех этих сценариях составила 14 см. При этом ошибка 90-го процентиля составила 41–49 см для 3–5 одновременно говорящих (8E). На 8F также видно, что качество разделения превышает 10 дБ при наличии беспорядка на столе.

Далее ученые оценили работу системы на пяти взрослых людях (троих мужчин и двух женщинах), которые говорили с разным акцентом в четырех разных комнатах. Участники произносили английские фразы из разных мест комнаты. На 8G показано, что говорящие были обнаружены со средней ошибкой локализации 14 см. Также была выполнена оценка устойчивости системы к различным ориентациям участников относительно роя. На 8H показано, что ошибки локализации были низкими, когда ориентация участника находилась в пределах 135° по отношению к рою. На 8I также показано, что даже участники, находящиеся близко к стенам, были локализованы с высокой точностью, когда их расстояния до стен превышали 60 см.


Изображение №9

В дополнение были продемонстрированы различные потенциальные применения системы акустического роя (видео №1-3). На 9A9D показаны результаты отслеживания движущегося говорящего, т. е. оценка траектории одного человека. На 9E и 9F показаны результаты для двух одновременно говорящих движущихся человек. В этих экспериментах участникам предлагалось следовать по траекториям, отмеченным на полу, во время разговора. Все приведенные выше результаты демонстрируют способность системы обобщать невидимую среду реального мира и говорящих людей.

Видео №9

Для более детального ознакомления с нюансами исследования рекомендую заглянуть в доклад ученых и дополнительные материалы к нему.

Эпилог

В рассмотренном нами сегодня труде ученые описали систему локализации и разделения источников звука, состоящую из нескольких роботов. Ученые назвали свое творение акустическим роем. С помощью специально разработанных алгоритмов глубокого обучения, система позволяет пользователям отключать звук в определенных областях или разделять одновременную речь, даже если у двух собеседников одинаковые голоса.

Акустический рой работает по принципу роботов-пылесосов. У роя есть базовая станция, где производится подзарядка. Когда роботы активируются, они покидают станцию и занимают необходимое положение на поверхности (например, на столе). При этом каждый из них оснащен специальными датчиками, которые предотвращают падение или столкновение с препятствием.

Авторы исследования объясняют принцип работы своей системы следующим образом. Если один говорящий находится на расстоянии в 1 метр от первого динамика и 2 метра от второго, то к первому его речь дойдет быстрее. Если же добавить второго говорящего рядом со вторым динамиком, то его речь дойдет до него быстрее. По сути, ученые создали систему на базе нейронной сети, которая использует эти сигналы с задержкой по времени, чтобы отделять то, что говорит каждый человек, и отслеживать его положение в пространстве.

В будущем ученые планируют проверить возможность модификации роя таким образом, что те могли создавать зоны отключения звука, как конус тишины в романе «Дюна». Такая технология позволила бы людям вести беседу, изолируя звуки внешней среды, либо сохранять конфиденциальность своей беседы, изолируя ее звук от внешнего мира.

Немного рекламы

Спасибо, что остаётесь с нами. Вам нравятся наши статьи? Хотите видеть больше интересных материалов? Поддержите нас, оформив заказ или порекомендовав знакомым, облачные VPS для разработчиков от $4.99, уникальный аналог entry-level серверов, который был придуман нами для Вас: Вся правда о VPS (KVM) E5-2697 v3 (6 Cores) 10GB DDR4 480GB SSD 1Gbps от $19 или как правильно делить сервер? (доступны варианты с RAID1 и RAID10, до 24 ядер и до 40GB DDR4).

Dell R730xd в 2 раза дешевле в дата-центре Maincubes Tier IV в Амстердаме? Только у нас 2 х Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 ТВ от $199 в Нидерландах! Dell R420 — 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB — от $99! Читайте о том Как построить инфраструктуру корп. класса c применением серверов Dell R730xd Е5-2650 v4 стоимостью 9000 евро за копейки?

 

Источник

Читайте также