Обучаемые нейронные сети Microsoft теперь распознают человеческий голос так же хорошо, как и люди. В докладе команды исследователей в области научного интеллекта Speech & Dialog сказано, что система распознавания речи теперь ошибается так же часто, как и профессиональные стенографисты. В некоторых случаях система способна совершать меньше ошибок.
Во время тестов коэффициент ошибочных слов (WER) составил 5,9%, что ниже предыдущего результата 6,3%, о котором Microsoft сообщила в прошлом месяце. Это самый низкий результат из когда-либо зарегистрированных. Команда не считает это прорывом в алгоритме или данных, но в тщательной настройке существующих архитектур AI. Основная сложность заключается в том, что
даже если звуковая дорожка хорошего качества и не содержит посторонних шумов, алгоритм должен бороться с разными голосами, перерывами, колебаниями и другими нюансами живой речи человека.
Чтобы проверить, насколько алгоритм способен повторить человеческие способности, Microsoft для чистоты эксперимента наняла стенографистов со стороны. У компании уже была готова правильная стенограмма аудиофайла, которая была предложен специалистам. Стенографисты работали в два этапа: сначала один человек перепечатывал аудио-фрагмент, а затем второй слушал и исправлял ошибки в расшифровке стенограммы. На основе верной стенограммы для стандартизированных тестов специалисты сработали на первом этапе на 5,9%, во втором — 11,3% ошибок. После 2 000 часов обучения человеческой речи по этому же аудиофайлу система Microsoft набрала 5,9% и 11,1% ошибок. Это означает, что компьютер теперь может распознавать слова в разговоре так, если бы он был человеком. При этом команда выполнила цель, которую поставила перед собой меньше года назад, а результат значительно превзошел ожидания.
Теперь Microsoft собирается повторить такой же результат в шумной обстановке. Например, во время движения по шоссе или на вечеринке. Кроме того, компания планирует сосредоточить свое внимание на более эффективных способах помочь технологии распознавать отдельных спикеров, если они говорят одновременно, и убедиться, что AI хорошо работает с большим количеством голосов вне зависимости от возраста и акцента. Реализация этих возможностей в будущем имеет решающее значение и выходит за рамки простой стенографии.
Чтобы достичь таких результатов, исследователи использовали собственную разработку компании — вычислительную сеть Toolkit. Возможность этого нейросетевого инструментария быстро обрабатывать обучающие алгоритмы на нескольких компьютерах, работающих под управлением графического процессора, значительно улучшила скорость, с которой они могли производить исследования, и, в конечном счете, достичь человеческого уровня.
Такой уровень точности оказался возможным благодаря использованию трех вариантов сверточной нейронной сети. Первой из них стала архитектура VGG, отличающаяся большим числом скрытых слоев. По сравнению с сетями, которые использовались ранее для распознавания изображения, эта сеть применяет небольшие, более глубокие фильтры (3х3), а также использует до пяти сверточных уровней перед объединением. Вторая сеть смоделирована на архитектуре ResNet, которая добавляет магистральные соединения. Единственное отличие заключается в том, что разработчики применили пакетную нормализацию перед тем, как вычислить ReLU. Последняя сверточная сеть в списке — LACE. Это вариант нейронной сети с временной задержкой, в котором каждый более высокий уровень – нелинейное преобразование взвешенных сумм окон фреймов нижнего уровня. Другими словами, каждый более высокий уровень использует более широкий контекст, чем нижние уровни. Нижние уровни фокусируются на извлечении простых локальных структур, в то время как более высокие уровни извлекают более сложные структуры, которые покрывают более широкие контексты.
Это достижение является для компании еще одним шагом на пути к легкому и приятному общению с компьютером. Но до тех пор, пока компьютер не может понимать смысл того, что ему говорят, он не сможет правильно выполнить команду или ответить на вопрос. Здесь задача намного сложнее. И она ложится в основу того, чем собирается заниматься Microsoft в ближайшие годы. Ранее в этом году Сатья Наделла говорил о том, что искусственный интеллект является «будущим компании», и его способность общаться с человеком стала краеугольным камнем. «Следующий рубеж – это переход от признания к пониманию» — сказал Джеффри Цвейг, руководитель исследовательской группы Speech & Dialog.
Несмотря на очевидный успех, между автоматической системой и работой стенографистов есть одна большая разница: она не может понимать тонкие разговорные нюансы вроде звука «э-э». Мы можем произносить данный звук непроизвольно, чтобы чем-то «забить» паузу во время обдумывания следующей мысли, которую нужно сказать. Или «э-э» может быть сигналом о том, что собеседник может продолжать говорить, как и «ага». Профессиональные стенографисты способны отличить их между собой, но эти небольшие сигналы теряются для искусственного интеллекта, который не в состоянии понять контекст, в котором был произнесен тот или иной звук.
«Еще пять лет назад я бы даже подумать не мог, что мы могли бы добиться такого результата. Я просто не думал бы, что это возможно» — отметил Гарри Шам, исполнительный вице-президент, возглавляющий группу исследований искусственного интеллекта Microsoft.
Первые исследования в области распознавания речи можно отнести к 1970-м годам, когда агентство передовых оборонных исследовательских проектов США (DARPA) поставило задачу создать прорывную технологию в интересах национальной безопасности. На протяжении десятилетий большинство крупнейших ИТ-компаний и множество научно-исследовательских организаций включились в гонку. «Это достижение является кульминацией более чем двадцати лет усилий», отмечает Джеффри Цвейг.
Microsoft считает, что результат работы над распознаванием речи окажет большое влияние на развитие потребительских и бизнес-продуктов компании, число которых существенно увеличится. Новые возможности из уже существующих разработок получат, как минимум, Xbox и Cortana. Кроме того, каждый пользователь сможет воспользоваться инструментами мгновенного перевода речи в текст.
Источник