Игра в имитацию: как Deepfake используют для «воскрешения» умерших музыкантов и доводят подражание до абсолюта

24.11.2020

Теперь даже Фрэнка Синатру можно «заставить» петь о чём угодно.

Игра в имитацию: как Deepfake используют для «воскрешения» умерших музыкантов и доводят подражание до абсолюта

Принято считать, что дипфейки популярны в видеоформате — например, в порно или для имитации роликов со знаменитостями и политиками. Однако The Guardian вспомнил о существовании Jukebox — одного из «Deepfake для музыки» от OpenAI, который позволяет исполнить композицию в стиле известных музыкантов, в том числе ушедших из жизни. TJ публикует пересказ материала и рассказывает подробности о работе алгоритмов.

Как это работает

«It’s Christmas time! It’s hot tub time!», — слышится в композиции «Classic Pop, in the style of Frank Sinatra» голос Фрэнка Синатры, но поёт не он. Песню можно было бы принять за потерянную демо-запись известного певца — его голос кажется устрашающе знакомым, даже когда качество оставляет желать лучшего.

OpenAI · Classic Pop, in the style of Frank Sinatra — Jukebox

Но композиция — не подлинный трек Синатры, а очень точная имитация, созданная компанией OpenAI, работающей над развитием искусственного интеллекта. Её инструмент Jukebox использует машинное обучение для создания музыки с вокалом в разных жанрах и стилях музыкантов. Помимо Синатры, можно выбрать многих других, например, Кэти Пэрри, Элвиса Пресли, Simon & Garfunkel, 2Pac или Селин Дион.

OpenAI использовала 1,2 миллиона песен из интернета вместе с текстами и метеданными, чтобы обучить Jukebox. На выходе получилась система, которая может выдавать исходное аудио на несколько минут длиной на основе того, какие вводные данные она получит. Например, если «скормить» ей Queen или Моцарта, родится приблизительно такая же музыка, хотя и не её прямая копия.

Во время работы над Jukebox исследователям пришлось столкнуться с проблемами, часть которых были препятствиями для автоматизации музыки многие годы. Главной проблемой стал объём данных.

Как рассказывали исследователи в блоге OpenAI, люди научились автоматически генерировать музыку больше полувека назад с появлением первых пианороллов — рулонов с отверстиями, которые позволяли автоматизировать игру на пианино. Однако у них было много ограничений: например, они не могли передавать голос человека и многие тонкие тембры, динамику и экспрессивность как при игре человеком.

Сейчас технологии позволяют использовать другой подход к генерации музыки — моделировать «чистое» аудио. Но в стандартной четырёхминутной песне в CD-качестве (44 кГц, 16 бит) около 10 миллионов временных отметок, и она сложна для моделей с точки зрения семантики — им придётся работать с очень далекоидущими зависимостями.

Один из способов решения проблемы — использовать автокодировщик, который сожмёт «чистое» аудио и снизит объём данных, отбросив «несущественные» для восприятия биты информации. Модель можно научить работать только с этим сжатым пространством и затем увеличивать детализацию исходного звука.

Именно по такому пути пошли в OpenAI — в Jukebox использовали модель автокодировщика, которая сжимает аудио с помощью подхода VQ-VAE, построенного на основе квантования. Система разбивает диапазон значений на ограниченное число уровней и округляет значения до ближайших к ним уровней.

Затем исследователи обучили алгоритмы генерировать музыку в диапазоне, сжатом с помощью VQ-VAE. Для этого использовали три модели: основная генерирует наиболее сжатые данные, а две других увеличивают детализацию и выдают менее сжатые значения.

Модель верхнего уровня в Jukebox отвечает за работу с «длинной структурой» музыки: этот алгоритм выдаёт сэмплы низкого качества, но улавливает высокоуровневую семантику вроде пения и мелодичности. Средняя и нижняя модели повышают качество «исходника» и добавляют деталей вроде тэмбра.

Все алгоритмы тренировали по авторегрессионным моделям глубокого обучения — они позволяют предсказывать будущие значения на основе прошлых значений. Каждая из моделей состоит из 72 слоёв «внимания» и соответствует 24, 6 и 1,5 секундам «чистого» аудио на высоком, среднем и низшем уровнях соответственно.

Для обучения Jukebox OpenAI использовала 1,2 миллиона композиций, 600 тысяч из которых были на английском. Текст и метаданные об артистах, жанрах и годе выхода песен взяли из LyricWiki. Модель сама научилась объединять похожих артистов и жанры: например, она поместила рядом Дженнифер Лопез и Долли Партон.

Ещё одним вызовом для исследователей стало объединение текста песни с музыкой. В распоряжении OpenAI отдельно оказались сами композиции и слова к ним — у модели не было данных о соответствии текста музыке, кроме того, многие артисты по-разному исполняют одни и те же песни.

Чтобы сопоставить разные части песен, исследователи занялись эвристикой: сначала они просто распределили текст по всей длине каждой песни, а потом уложили его по отдельным «окнам» из символов вокруг конкретного сегмента композиции. Как отметили в OpenAI, эта стратегия сработала на удивление хорошо, но не подошла для жанров с быстрой лирикой вроде хип-хопа, поэтому авторам пришлось увеличить окно и точнее выравнивать текст на уровне слов — для этого используют Spleeter и NUS AutoLyricsAlign.

Что думают музыканты, слушатели и исследователи

Как отметил музыкант, исследователь и академик Goldsmiths доктор Мэттью Йи-Кинг (Matthew Yee-King), решение OpenAI «впечатляет с инженерной точки зрения». По его мнению, подобные алгоритмы позволят создать новые возможности для творчества — например, люди смогут спросить у модели, которая изучила миллионы песен, чего ещё не было, найти это «белое пятно» и создать в нём что-то новое.

Они [OpenAI] разбивают аудиосигнал на набор музыкальных лексем — словарь, если хотите — в трёх разных уровнях времени, а потом выдают вам набор базовых фрагментов, которые воссозданы на основе музыки, которую вы им скормили. Алгоритм потом может переставлять эти фрагменты на основе ваших пожеланий. Например, дайте ему немного Эллы Фитцджеральд и он найдёт, а потом соединит вместе кусочки из словаря в её музыкальном пространстве.

доктор Мэттью Йи-Кинг

электронный музыкант, исследователь, академик Goldsmiths

В представлении Йи-Кинга, в будущем машины будут способны сгенерировать «идеальное произведение» для любого человека в любое время на основе предпочтений, которые тот установит. Нечто похожее уже пытаются сделать в стартапах Endel, и даже в российском Mubert. «Просто скормите людям наиболее оптимизированный звуковой поток, и можно будет совсем избавиться от артистов», — пояснил исследователь.

Похожего мнения придерживается и музыкант Мат Драйхёрст (Mat Dryhurst), который несколько лет работал с технологиями искусственного интеллекта. По его словам, алгоритмы откроют новые горизонты для музыкальной индустрии и поп-музыки.

Ближайшая аналогия — это сэмплирование. Эти модели создают новое измерение — теперь можно выбрать между готовой записью голоса Боуи или Боуи, который будет петь всё, что вы захотите. Это одновременно исключительная сила и ответственность.

Мат Драйхёрст

музыкант и подкастер

Но не все относятся к генерации музыки так же позитивно. Как напомнили в The Guardian, некоторые лейблы уже начали требовать удаления видео с дипфейк-имитацией голоса Jay-Z, которые исполняет рэп о Шейкспире и Билли Джоэле. В компании Roc Nation тогда заявили, что подобный контент «незаконно использует ИИ» для подражания голосу исполнителей. Лейбл обратился в YouTube с требованием удалить видео за нарушение авторских прав, но компания не подчинилась и потребовала «предоставить больше информации от заявителя», а ролик восстановили.

Крупные лейблы отказались комментировать «будущие проблемы с имитацией музыки» по запросу The Guardian. Даже британский регулятор BPI отказался под запись заявить журналистам, на какие шаги он может пойти для защиты артистов.

Дипфейками не всегда довольны и слушатели. Судя по всему, для некоторых людей прослушивание имитации на давно умерших музыкантов приводит к «эффекту зловещей долины». Например, под записями от Jukebox на Soundcloud можно найти комментарии вроде «это крики проклятых» и «звучит чертовски зловеще».

OpenAI · Rock, in the style of Elvis Presley — Jukebox

OpenAI · Hip Hop, in the style of Kanye West — Jukebox

Появление дипфейков для музыки также поднимает этические вопросы — что делает артистов особенными, почему люди слушают определённую музыку и как она вызывает эмоции. Как предположили в The Guardian, если люди потеряют эмоциональную связь с артистами, это может лишить музыку нечта фундаментального. По мнению Драйхёрста, чтобы этого избежать, алгоритмы должны стремиться не заменить людей, а помочь им.

Чего ждать в будущем

Несмотря на прогресс Jukebox, результаты алгоритмов пока далеки от музыки, созданной людьми — это понимают и в OpenAI. Исследователи открыто признают, что хотя система выдаёт согласованные композиции и следует традиционным партиям, в её песнях не услышать более крупных структур вроде повторяющихся припевов, а процесс повышения детализации добавляет заметный шум.

Пока модели также медленно работают из-за авторегрессионной природы их обучения. Для получения одной минуты звука требуется девять часов обработки — это не позволяет использовать Jukebox в интерактивных сервисах. Кроме того, модели пока в основном работают с английским языком и западной музыкой.

В будущем OpenAI планирует дорабатывать алгоритмы генерации музыки и создать возможности для коллаборации людей и машинного обучения. Помимо прочего, в компании уже изучают вопросы предвзятости алгоритмов и защиты авторских прав. Чтобы лучше понять последствия, исследователи выдали доступ к Jukebox десятку разноплановых музыкантов. Артисты пришли к единому мнению, что инструмент пока не получится применить в творческом процессе.

В ближайшие годы дипфейк-музыка приведёт к трансформации музыкальной индустрии по мере того, как направлением станут интересоваться всё больше компаний, пишет The Guardian. Над проектами уже работают Google с Magenta Project, множество небольших стартапов вроде Amper Music и Spotify, у которого есть целое подразделение по исследованию ИИ.

Журналисты считают, что дипфейки в музыке неизбежно столкнутся с этическими и юридическими трудностями. Ведь в скором времени никому больше не нужно будет платить за использование музыки любимого исполнителя в фильме, телешоу или рекламе — можно будет создать собственную идеальную имитацию. А стриминговые сервисы смогут создавать подборки на основе известных артистов, но не платить им отчислений.

Как минимум в Великобритании, где находятся многие крупные звукозаписывающие компании, законы пока не позволяют ограничить применение дипфейков. Как рассказал The Guardian главный юрист лейбла Beggars Group Руперт Скеллетт, в стране действуют два разных закона об авторском праве на музыку — один для самих мелодий и другой для текстов. «Если кто-то не использовал настоящую запись, а создал симулякр с помощью ИИ, вы не сможете предъявить никаких исков», — пояснил юрист.