Чтобы можно было заглушить болтовню окружающих, но при этом услышать сирены.
Шумоподавление в наушниках — хорошая функция, но ровно до тех пор, пока пользователь не пропустит из-за этого звонок в дверь или гудок летящего на него автомобиля.
Найти промежуточное решение захотели учёные из Университета Вашингтона. В начале ноября 2023 года на симпозиуме в Сан-Франциско они представили технологию «семантического прослушивания» — она позволяет в зависимости от ситуации выбирать, какие звуки подавлять, а какие пропускать и усиливать.
Для её работы нужны наушники и смартфон. На последний устанавливается специальное приложение — в нём пользователь указывает предпочтения, которые потом может изменить, в том числе с помощью голосовых команд. Встроенные в гарнитуру микрофоны будут записывать окружающие звуки, а система — «скармливать» их нейросетям в телефоне. Те, в свою очередь, их распознают и запустят выборочное шумоподавление.
Учёные обучили нейросети на «тысячах» записей из открытых источников со звуками, типичными для шумных пространств, и для первых тестов научили их распознавать 20 распространённых: например, детский плач, человеческую речь, сирены, чириканье птиц, шум пылесоса, грозу, звук слива в уборной и бьющегося стекла.
Первые эксперименты в офисах, парках и на улицах показали, что система «хорошо справляется» с приглушением и, наоборот, усилением даже «в тех ситуациях, к которым её алгоритмы не готовили». Участники, проверившие работу нейросетей на себе, отметили, что качество усиленного звука было даже лучше, чем записанного на микрофон. А вот живую речь и голоса в песнях она пока различает с трудом.
Среди других трудностей, с которыми столкнулись разработчики проекта, — необходимость добиться того, чтобы алгоритмы обрабатывали звуки со скоростью до «одной сотой секунды», поскольку то, что пользователь слышит, должно точно совпадать с тем, что он видит. Из-за этого обработка происходит на смартфоне пользователя, а не в облаке, — так быстрее.
Текущий прототип хотят улучшать на «данных из реального мира» и в будущем рассчитывают выпустить коммерческую версию.
Многие учёные считают, что разработка поможет прежде всего тем, кто в силу специфики своей работы не может отвлекаться на всё подряд или вынужден мириться с травмирующим уши шумом, но при этом всё-таки должен слышать отдельные звуки — скажем, человеческую речь. Пользователям Reddit уже не терпится заглушить шум газонокосилок, рёв мотоциклов, собачий лай, храп соседей и стук тренажёров в спортзале.
Но не обходится и без скептиков. По словам ассистента кафедры медиа и связей с общественностью исследовательского Университета Майами в Огайо Мака Хагуда, это лишит человека «приятных случайностей» — возможности узнать, что в мире есть ранее неизвестный, но приятный уху звук.