В YouTube появилась функция, которая автоматически подписывает в видеороликах окружающие звуки — аплодисменты, музыку и смех. Это поможет лучше понимать происходящее на экране тем, у кого имеются проблемы со слухом.
Возможности системы пока ограничены тремя перечисленными категориями. YouTube использует машинное обучение, чтобы определять звуки и показывать их текстовые описания.
Компания разработала нейронную сеть и натренировала её, использовав тысячи часов видео. По словам разработчиков, сложнее всего было научить систему отличать элементы, которые звучат одновременно — например, смех и рукоплескания.
В результате описания окружающих звуков стали отображаться вместе со стандартными автоматическими субтитрами. В качестве примера работы технологии ниже представлено выступление с телепроекта «В Америке есть таланты».
Команда разработчиков YouTube признаёт, что подписи примитивны. Но теперь технологию будет проще усовершенствовать, потому что основа, то есть нейронная сеть, уже создана. В будущем компания хочет добавить поддержку таких звуков, как лай, стук и звон. Для этого искусственному интеллекту придётся научиться различать источники звуков: звон, например, могут издавать телефон, будильник или дверной звонок.
Это стоит усилий разработчиков: они провели исследование, две трети участников которого сказали, что с подписями видео смотреть комфортнее.
Автоматические субтитры появились в YouTube в ноябре 2009 года. Алгоритмы компании пока далеки от идеала и их приходится дорабатывать — из-за неправильного произношения, диалектов, акцентов и фоновых шумов. Тем не менее, функция очень популярна: более 15 миллионов роликов с автоматическими субтитрами люди смотрят каждый день, а всего таких видео в сервисе — более миллиарда.
Источник: 3DNews