Baidu представила сервис на базе искусственного интеллекта для транскрибирования аудио

Китайская компания Baidu, создатель популярного азиатского поискового движка, мобильного браузера и других сервисов, анонсировала запуск SwiftScribe — веб-приложения на базе искусственного интеллекта, призванного помочь людям в быстром транскрибировании аудиозаписей.

Компания в последние годы всячески продвигала своё программное обеспечение для распознавания речи DeepSpeech. В прошлом году она выпустила клавиатуру для Android под названием TalkType, которая сконцентрирована в первую очередь на голосовом вводе. Также Baidu недавно представила систему быстрого синтеза речи Deep Voice.

SwiftScribe предлагает загрузить файл в форматах WAV или MP3, после чего сразу же начинает его обрабатывать. 30-секундная аудиозапись обрабатывается примерно за десять секунд, минутный файл — менее чем за 30 секунд. Максимальная длина загружаемой записи может составлять один час, однако на её анализ у приложения уйдёт примерно 20 минут, рассказала менеджер проекта Тянь Ву (Tian Wu) в интервью с VentureBeat.

После завершения обработки необходимо вручную внести корректировки — добавить заглавные буквы и знаки препинания, а также при желании изменить написание определённых слов. С помощью кнопок на клавиатуре можно изменять скорость воспроизведения аудио, перематывать его и добавлять разрывы строк.

На создание SwiftScribe Ву вдохновил её опыт транскрибирования множества интервью во время обучения в аспирантуре Калифорнийского университета в Санта-Барбаре. «Английский не является моим основным языком, — сказала Ву, уроженка Китая. — Мне требовалось десять часов на транскрибирование одного часа аудио. Это мой личный опыт. Профессионалу обычно требуется от четырёх до шести часов на транскрибирование одночасовой аудиозаписи».

Но Ву и её коллега также вдохновились разговорами с несколькими транскрипционистами. Ву уверена, что её технология может ускорить транскрибирование аудио в 1,67 раза.

Несмотря на то, что проект в первую очередь предназначается для людей, занимающихся транскрибированием, которые обычно делают свою работу на компьютере, а не на мобильном устройстве, он также может оказаться полезен и другим — например, журналистам и историкам. На данный момент SwiftScribe является бесплатным сервисом и находится в стадии закрытого бета-тестирования, но в будущем Ву планирует сделать его коммерческим продуктом. Приложение позже может обзавестись поддержкой транскрибирования видео, вставки субтитров, новых файловых форматов и возможностью автоматического добавления знаков препинания.


Источник: 3DNews

Baidu, аудио, искусственный интеллект, транскрибирование

Читайте также