Как сгенерировать бинауральный звук по моноканальной аудиодорожке — поможет видеозапись

19.01.2019

Специалисты из Техасского университета в Остине (UT Austin) разработали нейросеть, которая обрабатывает моноканальную аудиозапись на видео и воссоздает её «объемное» звучание.

Рассказываем, как это работает.

Фото marneejill / CC BY-SA

Новый метод создания 3D-звука

Объемный звук часто встречается в играх или фильмах, но в условных видеороликах в сети 3D-звук — редкость. Для его записи требуется дорогое оборудование, не всегда доступное создателям видео — часто для съемки используют исключительно смартфоны.

Аудиодорожка, записанная таким образом, ограничивает наше восприятие видео: она не способна передать то, как источники звука расположены в пространстве и как они перемещаются. Из-за этого звучание видеоролика может ощущаться «плоским».

Решением этой проблемы занялись в UT Austin — профессор университета Кристен Грауман (Kristen Grauman) и студент Руохан Гао (Ruohan Gao). Они создали систему на базе алгоритмов машинного обучения, позволяющую превратить моноканальную аудиозапись в «объемную» по видеозаписи. Технология получила название «2.5D Visual Sound».

Это не полноценный пространственный звук, а «смоделированный». Однако, по словам разработчиков, для рядового слушателя разница будет практически незаметна.

Как работает технология

Система, разработанная в UT Austin, использует две нейронные сети.

Первая нейросеть создана на основе архитектуры ResNet, которую в 2015 году представили исследователи из Microsoft. Она распознает объекты на видео и собирает информацию об их перемещении в кадре. На выходе сеть генерирует матрицу, называемую картой признаков (feature map), с координатами объектов на каждом из кадров видеоролика.

Эти сведения передаются во вторую нейросеть — Mono2Binaural. Ее разработали в Техасском университете. Также сеть принимает на вход спектрограммы аудиозаписей, полученные при помощи оконного преобразования Фурье с использованием функции Ханна.

Mono2Binaural состоит из десяти свёрточных слоёв. После каждого из этих слоёв в сети располагается блок пакетной нормализации (batch normalization), увеличивающей точность прогноза алгоритма, и блок линейной ректификации с функцией активации ReLU.

Свёрточные слои нейросети анализируют изменения частот в спектрограмме и составляют матрицу, содержащую информацию о том, какая часть спектрограммы должна принадлежать левому аудиоканалу, а какая — правому. После чего с помощью обратного оконного преобразования Фурье генерируется новая аудиозапись.

При этом Mono2Binaural умеет воспроизводить пространственный звук для каждого из объектов на видео по отдельности. Например, нейросеть может распознать в ролике два инструмента — барабан и трубу — и создать для каждого из них отдельную звуковую дорожку.

Мнения о «2.5D Visual Sound»

По словам самих разработчиков, им удалось создать технологию, которая воссоздает «реалистичное пространственное ощущение». Mono2Binaural показала хороший результат во время тестирования, и поэтому авторы уверены, что у их проекта — большой потенциал.

Чтобы доказать эффективность своей технологии, специалисты провели серию экспериментов. Они пригласили группу людей, которые сравнивали звучание двух дорожек: одна была создана с помощью Mono2Binaural, а вторая — методом Ambisonics.

Последний разработали в Калифорнийском университете в Сан-Диего. Этот способ также создает «объемное» аудио из монозвука, но, в отличие от новой технологии, работает только с 360-градусными видео.

Большинство слушателей выбрало аудио от Mono2Binaural как наиболее близкое к реальному звучанию. Также тестирование показало, что в 60% случаев пользователи безошибочно определяли местонахождение источника звука на слух.

У алгоритма ещё есть некоторые недостатки. Например, нейросеть плохо различает звуки большого количества объектов. Плюс, очевидно, она не сможет определить положение источника звука, которого нет на видео. Однако разработчики планируют решить эти проблемы.

Аналоги технологии

В области распознавания звука по видео существует несколько похожих проектов. Об одном из них мы писали ранее. Это «визуальный микрофон» от специалистов из MIT. Их алгоритм распознает на беззвучном видео микроскопические колебания объектов под воздействием акустических волн и восстанавливает на основе этих данных звук, который был слышен в помещении. Ученым удалось «считать» мелодию песни Mary Had a Little Lamb с пачки из-под чипсов, домашнего растения и даже кирпича.

Фото Quinn Dombrowski / CC BY-SA

В других проектах ведется разработка технологий для записи звука в 360-градусных видео. Один из них — Ambisonics, который мы упоминали ранее. Принцип работы алгоритма похож на Mono2Binaural: он анализирует перемещение объектов в кадре и соотносит их с изменениями в звуке. Однако у технологии Ambisonics есть несколько ограничений: нейросеть работает только с 360-градусными видео и плохо выделяет звук, если на записи есть эхо.

Ещё один проект в этой области — Sol VR360 от компании G-Audio. В отличие от других разработок, технологию уже внедрили в пользовательский сервис для обработки звука Sol. Он создает пространственное аудио для 360-градусных видео с концертов или спортивных состязаний. Недостаток сервиса — сгенерированные ролики воспроизводятся только в приложениях Sol.

Выводы

Разработчики систем для создания пространственного звука видят главную область применения технологии в VR и AR-приложениях для максимального погружения человека в атмосферу игры или фильма. Если удастся преодолеть ряд трудностей, которые перед ними стоят, технологию можно будет применить еще и для помощи слабовидящим людям. С помощью подобных систем они смогут детальнее разобраться в том, что происходит в кадре на видеороликах.

Больше об аудиотехнологиях — в нашем Telegram-канале:

InSight впервые записал звуки марсианского ветра
Восемь аудиотехнологий, которые попадут в зал славы TECnology в 2019 году
Окна с активным шумоподавлением заглушат звуки мегаполиса