Модель преобразования обладает гибкими настройками и даже поддерживает пение.
О своей разработке компания рассказала в рамках конференции Interspeech 2021, поделившись возможностями и особенностями технологии.
- Исследовательская группа NVIDIA создала несколько моделей преобразования текста в речь, одна из которых под названием RAD-TTS победила в конкурсе на создание самого реалистичного аватара на выставке NAB Show 2021.
- Система позволяет человеку обучать модель синтеза речи с помощью собственного голоса, тем самым предоставляя ей данные о тембре, тональности и других характеристиках, уникальных для каждого пользователя.
- RAD-TTS способна преобразовывать в речь слова одного человека, при этом используя голос другого. В компании подчеркнули, что возможности технологии выходят за рамки работы диктора — её можно в том числе использовать для того, чтобы воссоздавать голоса известных исполнителей или помогать людям с функциональными нарушениями голоса.
- NVIDIA продемонстрировала работу технологии в серии роликов I Am AI («Я — искусственный интеллект»), которые выходили на YouTube-канале компании. В некоторых из этих видео в качестве диктора выступают синтезированные голоса, обученные при помощи модели преобразования RAD-TTS. Компания ставила перед собой цель добиться, чтобы голос ИИ не отличался от человеческого.