Некрасивые дети AI-революции

Революция ИИ случилась очень внезапно даже по меркам стремительно развивающихся технологий последних десятилетий. Как говорил фантаст и идеолог киберпанка Уильям Гибсон, будущее уже наступило — оно просто неравномерно распределено. И в одном из направлений — имитации внешности и голосов людей — будущее как будто шагнуло вперед сразу на столетие. Что происходит с индустрией сейчас, что ее ждет и как с эпидемией дипфейков планируют бороться в будущем? 

О том, что тема дипфейков — на гребне волны общественного интереса, говорит хотя бы то, что этот текст пришлось переписывать и дополнять несколько раз: когда он уже был готов к публикации, появлялась новая информация либо из мира дипфейков, либо из мира борьбы с ними. Но сопротивление кажется обреченным на провал: фейки уже как цунами — закрывают горизонт и того и гляди обрушатся на наши головы. 

Компании вроде OpenAI и Microsoft на словах признают опасности, которые приносят технологии, но продолжают создавать все более и более совершенные продукты. Как будто недостаточно того, что у OpenAI есть Sora, которая создает настолько реалистичные ролики, что создатели боятся пускать к ней пользователей. 

Microsoft же в конце апреля представила модель VASA-1, которую в обзорах называют «ночным кошмаром создания дипфейков» — убедительная анимация создается на основе всего одной фотографии. Или даже картины. Если Мону Лизу можно заставить читать рэп, что уж говорить об обычных людях… А цифра «1» в названии ясно даёт понять, что останавливаться компания на этом не планирует.

VASA-1 в действии
VASA-1 в действии

https://youtu.be/bsuqk5T-Ak4?si=LIY7phPtD51hg43pБороться с дипфейками пытаются с помощью как технологий, так и законодательных инициатив. Но пока что успехов ни на том, ни на другом фронте не наблюдается. Enfant terrible передовых технологий генеративных состязательных сетей ставит перед научным сообществом и обществом в целом серьезнейшие вызовы. 

Не верьте правде

Разрушительность дипфейков, кажется, перевешивает приносимую ими пользу во всех областях. В июле 2023 года на конференции G20 «Преступность и безопасность в эпоху НФТ, ИИ и метавселенной» использование подделок злоумышленниками было названо одной из тех всё сильнее разрастающихся проблем, масштаб которых можно считать геополитическими. 

И действительно, переосмыслить нам предстоит, как минимум, технологическую этику, информационную безопасность, проверку достоверности информации из любых источников и еще множество направлений, о которых мы сейчас даже не можем подумать. Светлых же сторон у дипфейков как будто бы нет.

Джеймс Дин «снимается» в новом фильме через 70 лет после гибели
Джеймс Дин «снимается» в новом фильме через 70 лет после гибели

Даже очень тщательный анализ интернета и консультации с другими нейросетями не помогли найти каких-либо значимых применений дипфейков в благих целях. Да, теперь мы можем воскресить безвременно ушедшего актера, создать голливудские спецэффекты на домашнем компьютере, попросить выступить «на бис» Джонна Леннона. Ну, а искать нового актера на роль «Крепкого Орешка», вероятно, не придется теперь ещё лет сто — Брюс Уиллис оцифровал себя еще шесть лет назад. До того, как это стало мейнстримом.

Расплата же за это — потеря возможности верить чему-либо — перечеркивает любые возможные плюсы. С языковыми моделями и даже с генераторами text2image уравнение, по крайней мере, не настолько однозначное. 

У технологии есть и обратная сторона: зрители отказываются верить в реальность настоящих видео. Так случилось с Кейт Миддлтон, принцессой Уэльской, рассказавшей недавно СМИ об онкологическом заболевании. Многие отказывались верить сообщению даже несмотря на последовавшие официальные заявления BBC и Королевского двора. 

The Washington Post
The Washington Post

Главная беда дипфейков — она же главное достоинство современных нейросетевых технологий — в их доступности. Качественные решения можно найти в open source и буквально за час «заставить» совершенно любого человека сказать совершенно что угодно абсолютно любым голосом. 

Нетрудно угадать, какие способы применения нейросетей стали первыми…

Дипфейк Эммы Уотсон из удаленного из сети ролика
Дипфейк Эммы Уотсон из удаленного из сети ролика

Основные пути использования сгенерированных видео — “видео для взрослых”, фейки и реклама «со знаменитостями». Том Хэнкс рекламирует средство для красивой улыбки, Джо Роган — препарат для потенции, а Киану Ривз — утюги. Пострадавших знает вся планета, но на кого подавать в суд — не всегда непонятно.

Фильм Ex Machina
Фильм Ex Machina

По данным Kaspersky, создание одной минуты дипфейк-видео у «профессионалов» в даркнете стоит порядка $300. И это не просто «говорящая голова», а полноценный и правдоподобный видеоролик с любым сюжетом. Как может быть использовано это видео? Шантаж, обман и вымогательство, социальный инжиниринг — далеко не полный список. Недавний пример: сотрудник компании в Гонконге перевел скамерам 25 миллионов долларов после того, как его об этом попросил дипфейк, притворявшийся CEO компании. 

Для «пранка» был организован целый видеозвонок с участием всего руководства компании. Как оказалось после, единственным настоящим человеком на всей встрече был тот самый сотрудник. Поэтому в следующий раз на зум-звонке с коллегами всмотритесь внимательнее в их лица. Вдруг у кого-то FPS рендеринг бровей начнет лагать или цвет глаз не совпадает?.. 

Строгий закон — необязательное исполнение

Великобритания первой объявила о введении уголовной ответственности за создание и даже распространение порнографических дипфейков. Наказанием станет реальное заключение и «неограниченный штраф». Также недавно под блокировку в Великобритании попал крупнейший порносайт с дипфейками. Общественность и знаменитости это ожидаемо одобряют. 

Вот только есть один нюанс: распространение было незаконным и ранее, добавился только пункт про генерацию видео. Несмотря на это, ни один человек за распространение дипфейков в Великобритании официально осужден еще не был. А сайт наверняка только нарастит аудиторию в даркнете. 

«Какие бы решительные меры ни принимали правительства, создание новых изображений всегда будет доступно одним нажатием кнопки — стремление создавать откровенные изображения заложены в основу создания изображений ИИ», — справедливо замечает Guardian. Вот только заложено это стремление как будто бы ещё глубже, в саму человеческую природу.

Клин клином. Как доказать, что вы — не жираф?

От разработчиков нейросетей также ждут помощи в ограничении распространения собственных ИИ. Инициативы включают нанесение «вотермарков» и требование разработки способов гарантированно распознать дипфейк. 

ИИ пока еще можно узнать по ошибкам. Но с каждым месяцем их становится всё меньшеhttps://www.buzzfeednews.com/article/pranavdixit/ai-generated-art-hands-fingers-messed-up
ИИ пока еще можно узнать по ошибкам. Но с каждым месяцем их становится всё меньше
https://www.buzzfeednews.com/article/pranavdixit/ai-generated-art-hands-fingers-messed-up

Результаты неутешительные: обязать наносить вотермарки опенсорс-разработчиков невозможно. А отличить сгенерированное видео от реальности фокус-группам удается всего в четверти случаев (хотя уверены в своих способностях в три раза больше народу). И, в отличие от ИИ, обучение с подкреплением здесь не помогает: тренинги по распознаванию дипфейков не оказывают никакого эффекта.

Борьба с дипфейками ведется и более остроумными способами. Например, с помощью ИИ воссоздается все строение голосового тракта предполагаемого говорящего. Это нужно, чтобы понять, «человеческая» ли у обладателя голоса анатомия и может ли голос вообще принадлежать человеку. Скажем, один из генераторов ИИ-дипфейков создавал неотличимые от настоящих голоса. Но реконструкция показала, что горло у «рассказчика» должно быть длиной шесть метров. То есть либо голос нечеловеческий, либо с вами беседует жираф. 

В прессе про технологию написали недавно, поэтому какое-то время она, возможно, действительно сможет отличать дипфейки. Но нет сомнений, что вскоре технологии приспособятся и к этой защите. 

В целом, попытки идентифицировать сгенерированные ИИ голоса и видео на данный момент можно назвать провалившимися. Все протестированные решения оказались ненадежными. Даже лучшие идентификаторы дипфейков угадывают подделку примерно в четверти случаев. А ведь  технология их генерацииещё даже не приблизилась к пику своего развития.

Авторское право

Авторское право вступает в новую эру, где необходимо решать проблемы, связанные с авторством искусственно сгенерированных изображений и видео. Один из ключевых вопросов — определение, кто является автором произведения: человек, который создал исходный материал, или разработчик алгоритма, который создал конечный продукт. Но есть и еще одна пострадавшая сторона — сами «герои» дипфейков. 

«Киану Риз» проверяет, не забыл ли он выключить утюг
«Киану Риз» проверяет, не забыл ли он выключить утюг

Дополнительная сложность заключается в защите прав на лица и образы, использованные при создании дипфейков, которые могут включать известных персон без их явного согласия. Эти вызовы требуют адаптации законодательства, чтобы обеспечить защиту интеллектуальной собственности в цифровую эпоху.

Например, тот же случай с «рекламой Киану Ривза» поднимает дополнительные вопросы об авторских правах. Авторы использовали в ролике дипфейк, созданный специализирующейся на дипфейках компанией. Компания подала иск в Арбитражный суд, и тот вынес решение в пользу создателей ролика… Но не ставшего прототипом актера.

NFT (наконец-то) действительно может пригодиться? 

Символ краха маркетплейсов NFT — обесценившиеся коллекционные токены Bored Ape
Символ краха маркетплейсов NFT — обесценившиеся коллекционные токены Bored Ape

NFT может казаться еще одним неудачным ребенком в дружном семействе нейросетей. Как отметили авторы одной из статей, NFT «кажется инструментом, пытающимся найти себе применение». До недавнего времени Non Fungible Tokens были известны в основном благодаря сомнительному искусству и «скучающим обезьянам» за миллионы долларов. А после рынок NFT полностью просел под своим весом, потеряв 95% стоимости активов, и термин стал практически ругательным.

Меж тем в прошлом году начали массово появляться публикации людей, увидевших в блокчейне спасителя от дипфейков. Действительно, способность технологии обеспечивать децентрализованное подтверждение подлинности и четкую цепочку хранения делает её потенциально эффективным инструментом для отслеживания и проверки не только финансовых активов, но и контента. Не уверен, что с тобой говорит твою любимый блогер? Проверь его личность по NFT-паспорту. 

Новостей было очень много — но в последнее время они почти перестали появляться. Почему? Дело в том, что для использования блокчейна — и NFT в частности — как эффективного инструмента необходимо наличие крепкого партнерства между огромным количеством представителей общественных и технических сфер на международном уровне.

Если защитить от «подделок» знаменитостей первой величины с помощью технологии можно, то выдать NFT-паспорта каждому человеку на планете для защиты от фейков — задача нетривиальная. И даже в этом случае дипфейков едва ли станет меньше.

 

Источник

Читайте также