В 2016 году в России вышел первый музыкальный альбом в стиле Егора Летова, автором текста песен которого выступила нейросеть, созданная силами сотрудников Яндекса Алексея Тихонова и Ивана Ямщикова.
Нейросети, или искусственные нейронные сети (ANN) – подмножество алгоритмов машинного обучения (ML). Понятие возникло вследствие проведения аналогии между процессами в человеческом мозге при передаче сигналов нейронами. Структура искусственных нейросетей состоит из узлов, которые в свою очередь образуют слои. У каждого узла есть вес и пороговое значение. Данные с узла не передаются на следующий уровень нейросети только если выходные данные одного из узлов превышает пороговое значение. Обучение реализуется путем использования алгоритмов обучения. От их точности зависит скорость и качество вычислений.
Вопрос технической реализации работы нейросети представители Яндекса оставили без особых подробностей, однако сведения о технологиях и предыдущем подобном опыте и исследованиях о генерации поэтических текстов нейросетями позволяют предположить несколько интересных решений.
В основе проекта «Нейронная оборона» лежит language model – когда нейросеть предсказывает следующее слово, которое применил бы тот или иной автор текста. Language model – это статистическая модель, которая назначает вес словам, словосочетаниям и предложениям. В целом, при работе с языковыми моделями, интересно назначение вероятности словосочетаниям и предложениям. Однако, при работе с поэтическими текстами, интерес больше представляет вероятность слов и словосочетаний.
Языковая модель предполагает предсказание следующего слова на основе контекста, часто называемом «историей». Появившаяся в результате работы над проектом нейросеть получилась достаточно многофункциональной, она пригодилась при подобной работе и с другими музыкантами и поэтами.
Скачок развития языковых моделей связывают с появлением GPT от OpenAI. В настоящее время, модель имеет 170 млрд. параметров. Она активно применяется в бизнесе, в частности, в SEO.
Важную роль при реализации проекта играл простой подсчет ключевых слов. Если сравнивать «Нейронную оборону» с другими подобными проектами, то в случае с ней есть очень интересная особенность. Дело в том, что если смотреть на количество уникальных слов, то жанр панк-рока занимает предпоследнее место. На первом месте по уникальной лексике выступает рэп. Разница между роком и рэпом составляет в среднем 2 тысячи слов. Таким образом, при 100-200 уникальных словах в тексте рэп-композиции, в рок-тексте их будет 60-120.
Когда нейросеть генерирует текст, она, обучаясь на текстах, пытается выявить закономерности на самом низком уровне: почему одна буква следует за другой, какова вероятность совпадения окружения одного и того же символа. Такая особенность хорошо сработала при создании текстов «Нейронной Обороны» — благодаря ней, к уникальным словам текстов можно отнести и междометия, и лексемы, не имеющиеся в словарях, но соответствующие общему духу и настрою текстов Летова.
Годом позже, Яндекс реализовал еще один музыкальный проект, связанный с нейросетью – создание музыкальных произведений в стиле известного русского композитора Александра Скрябина. В этом проекте были использованы многие наработки «Нейронной обороны», да и участвовали в нем те же сотрудники Яндекса. В ближайшем будущем мы можем ожидать развитие музыкальных проектов, связанных с применением нейросетей. И более того, влияние на музыкальную индустрию таких проектов будет весьма заметным: применение нейросетей для создания текстов и музыки позволить реализовать самые неординарные и креативные идеи.
Андрей Ветров
Копирайтер, переводчик компании Digex Co