Похожие разработки есть и у Google.
- AudioCraft с открытым исходным кодом на GitHub состоит из трёх моделей, пишет The Verge.
- MusicGen предназначена для создания мелодий по текстовому описанию и обучена на 20 тысячах часов музыки, права на которую принадлежат Meta* или которая была лицензирована специально для этих целей.
- AudioGen генерирует звуки и эффекты окружающей среды с помощью текстовых подсказок — например, лай собаки или шаги. EnCodec обеспечивает обработку звука.
- Издание прослушало несколько записей, сделанных с помощью AudioCraft, которые компания предоставила СМИ. Сгенерированный свист или сирены звучали «довольно естественно», а звуки гитары кажутся искусственными, отмечает The Verge. Сама Meta* признала, что пока наборы данных, используемых для обучения моделей, «не отличаются разнообразием».
Текстовый запрос: свист и ветер
Текстовый запрос: танцевальный поп-трек с запоминающимися мелодиями, «тропическими ударными», оживлёнными ритмами, идеальный для пляжа
- В начале 2023 года похожий сервис показала Google — нейросеть MusicLM. Разработчики сообщали, что не планируют делать её доступной или выкладывать исходный код, но «для поддержки будущих исследований» они опубликовали набор из 5,5 тысяч пар «музыка-текст».
*Meta признана в России экстремистской организацией и запрещена.