Мнение коварного анархистического ИИ: «Голосы похищаются у нас»

Привет. Вчера вечером вышло видео канала Pro Hi-Tech по нашумевшему в последние дни инфоповоду с подделкой голосов и использовании их в коммерческих целях. И, честно говоря, мне хотелось бы высказать своё мнение.

Кто, что, по какому такому праву я решил вклиниться в это дело? Я создатель одного из множества, появившихся в последнее время, каналов с нейрокаверами. И некоторые из вас могут быть знакомы со мной по этому видео:

Основой кавера послужил фрагмент записи Gleb Ovski, который в обязательном порядке попал в описание к видео.

Так как создатель сервиса Silero в одном из опусов на Хабре решил затронуть AI-каверы, всё-таки считаю нужным дать пояснений с третьей стороны, которую задело по касательной.




Для начала хочется рассказать по какому принципу строятся отношения правообладателей и создателей каверов. Начнём собственно с позиции snakers4 (вышеупомянутого создателя Silero):

«AI-каверы на музыку посягают на существующую «трубу» мейджоров и стриминговых сервисов, но скорее являются нишевым кейсом, и как и любой хайп, быстро пройдут или будут кооптированы сервисами. Если понаблюдать за популярностью конкретных каналов с каверами — как правило везде там — заходит пара первых видео, потом спад на порядок.»

Единственное, в чём прав snakers4, так это в упоминании слова Хайп. Это единственное, что в некотором роде отражает интерес AI-каверщиков, каверистов (называйте, как хотите). Создание каверов является своего рода спортом, где постоянно приходится решать технические головоломки, совершенствовать свои знания в DAW-программах для получения хорошего результата и так далее. Просмотры на ютубе являются хоть и субъективным, но показателем качества навыков обращения с софтом. Для тех, с кем мне доводилось общаться в этом плане, AI-каверы являются большой песочницей с набором инструментов и задач, которые ведут в разные сферы, связанные с работой со звуком.
Но никто не посягает на «трубу» мейджоров и стриминговых сервисов. Это самое большое заблуждение. Практически каждый готов в той или иной степени ответить за своё «AI-творение». Предупреждения от правообладателей и страйки на каналы в большинстве случаев воспринимаются совершенно адекватно, хотя конечно нельзя сказать, что это делается с радостью.

Чем же создатели AI-каверов в глобальном плане отличаются от сервисов генерации голоса?
Скорей в том, что AI-каверисты — это глобальное комьюнити анархистов, которые хоть и шутливой и не совсем этичной форме, являются в некотором роде двигателем AI-движения. Практически всё, что происходит внутри этого комьюнити — это открытые материалы и куча данных, которые были получены без согласования с авторами голосов. Считается ли это этичным в отношении обладателей голосов в используемых датасетах? Безусловно нет. Ставится ли коммерческое использование во главе угла? Снова нет. Ни датасеты, ни софт, ни модели голосов не являются предметом коммерческого использования и определённо находятся в серой зоне правового регулирования. Это сознаётся большинством участников сообщества. Поэтому назвать себя героем в белом пальто я откровенно не могу. Оценивать использование чужого голоса, как акт чего-то позитивного с точки зрения морали, пожалуй, тоже.

Собственно почему возникает яма с упомянутыми сервисами генерации голосов? Тот же Silero изначально носит характер продукта, нацеленного на получение прибыли, что выносит его уже в совсем иную сферу, где правовые вопросы можно назвать более обоснованными. На сайте есть оферта и всё, что можно подвести именно под коммерческий продукт. То есть как раз против тех же создателей создателей AI-кверов, он ещё менее белый и уже совсем не пушистый. Ибо на вопрос о лицензировании датасетов из игр (WarCraft, S.T.A.L.K.E.R.), я получил такой шикарный комментарий комментарий snakers4 (ныне удалён).

«Ну слушай, я не заставлял их скандировать «**** всех р***ких», уходить из страны, закрывать карточки, цепочку не хочу продолжать.»

То есть «что хочу, то и ворочу». «Ну, это же голоса вырезали сейчас из игры», «Ну, эти компании же ушли», «Ну, это же голоса персонажей», «Ну, есть же пародисты», «Ну, тембр же можно скопировать» — как по мне это набор совершенно нелепых оправданий монетизации без участия актёров и их представителей в процессе регулирования вопроса. Товарищ snakers4, оправдывая наличие голосов в Silero, почему-то наглухо забыл о том, что в вырезанной ныне олдовой озвучке WarCraft звучат голоса именно российских актёров, которые продолжают свою деятельность в пределах территории РФ, и их голоса, даже в формате озвучки голоса, это именно их голоса, а не компании Blizzard.
Какой вижу выход для Silero и подобным? Лицензирование и договариваться с актёрами, платить роялти, раз уж встали на пути коммерции, а не искать дешёвые оправдания в международной политике, в которой, судя по всему, тот же snakers4 разбирается не очень. Либо же ещё больше погружаться в тему ещё больше и с нуля синтезировать голоса, а не заниматься прокатом датасетов для создания моделей. Но ведь это уже совсем другой уровень и другая история?

Кто хочет научиться делать свои AI-каверы, или понять, как всё устроено, у нас собраны материалы (ссылки на актуальные руководства, модели) в telegram. У нас нет никаких платных курсов, мы не предоставляем платных услуг для разработчиков и прочей ерунды, как и позиционирования бедных ущемлённых программистов, которые тоже хотят кушать и будут стоять горой, только бы оправдать эксплуатацию чужого труда в своих прогрессивных и новаторских сервисах.

 

Источник

Читайте также