Baidu представила систему быстрого синтеза человеческой речи

Baidu не афиширует работу над некоторыми своими проектами, проводимую в центре исследования искусственного интеллекта в Кремниевой долине, однако как минимум некоторые из них несут в себе огромный потенциал. Недавно китайский технологический гигант поведал об одном таком проекте публике — а именно о технологии преобразования текста в речь под названием Deep Voice, более быстрой и эффективной, чем WaveNet от Google. Разработка Baidu может быть обучена речи всего за несколько часов практически без человеческого вмешательства. И поскольку компания может контролировать передаваемые системой эмоции, технология способна быстро синтезировать речь, которая звучит довольно естественно и реалистично.

Baidu представила систему быстрого синтеза человеческой речи

WaveNet от Google также может синтезировать реалистичную человеческую речь, но требует больших вычислительных мощностей — к тому же на сегодняшний день её трудно использовать в связке с существующими приложениями. Baidu заявила, что решила проблему WaveNet, задействовав технологии глубокого обучения для преобразования текста в наименьшие воспринимаемые единицы речи — феномы. Система затем превращает их в звуки, используя собственную сеть синтеза речи.

В обоих стадиях используются технологии глубокого обучения, при этом человеческое вмешательство не требуется. Тем не менее, система не способна определять, на какие феномы или слоги должны ставиться ударения и как долго они должны звучать. Поэтому Baidu приходится вручную определять эти параметры для передачи тех или иных эмоций.

Компания говорит, что решила проблему технологии Google, но для функционирования Deep Voice, тем не менее, по-прежнему требуются большие вычислительные мощности. Для имитации человеческого говорения компьютер должен генерировать один образец речи не более чем за 20 микросекунд. По словам исследователей Baidu, они должны быть очень осторожны, чтобы им никогда не приходилось обрабатывать результаты заново, а также вынуждены хранить модель целиком в кеше процессора и оптимально использовать доступные вычислительные средства.

Впрочем, исследователи уверены, что синтез речи в реальном времени вполне возможен. Они опубликовали ряд примеров работы Deep Voice в сервисе Mechanical Turk компании Amazon, попросив большую группу людей оценить качество образцов. Судя по результатам, система справляется с преобразованием текста в речь великолепно.

Источник:

Baidu, глубокое обучение, искусственный интеллект, синтез речи

Читайте также