Нейросеть обучается, захватывая голос исполнителей из различных песен. Как объясняют исследователи, поющие голоса имеют более сложные паттерны и ритмы, чем обычные. Кроме того, как указывает VentureBeat, существует не так много общедоступных наборов данных по обучению пению. Песни, которые используются в процессе обучения, должны анализироваться вручную на уровне текста и звука.
DeepSinger, по словам авторов разработки, преодолевает эти проблемы. Нейросеть работает в несколько этапов. Сначала она сканирует популярные песни в интернете. Затем разделяет вокальные и инструментальные партии с помощью инструмента Spleeter и делит вокал на фонемы.
Для извлечения фонем исследователи разработали модель выравнивания текста и музыки. Она позволяет автоматически извлекать каждую единицу звука в песне. После этого при помощи технологии Microsoft FastSpeech алгоритм формирует собственную «модель пения».
Как утверждают исследователи, у DeepSinger есть несколько преимуществ перед другими нейросетями, синтезирующими певческий голос.
«Насколько нам известно, это первая подобная система, которая напрямую добывает данные для обучения с музыкальных сайтов и которая способна синтезировать пение на разных языках», — указывают авторы проекта в статье на Arxiv.org.
В ходе экспериментов DeepSinger просканировал десятки тысяч песен из Интернета на китайском, кантонском и английском языках. Исследователи сообщают, что DeepSinger может синтезировать голос высокого качества с точки зрения как точности звучания, так и «естественности голоса».