В последнее время стало казаться, что искусственный интеллект и нейросети в частности стали ближе к захвату мира, чем когда-либо прежде. Прямо сейчас мы наблюдаем расцвет искусственного интеллекта в копирайтинге, визуальном искусстве и, конечно же, озвучке. Вспомните времена, когда в наших смартфонах появились голоса Siri или Алисы. Теперь же мы повсюду слышим голоса, похожие на Алису и Siri: они озвучивают аудиоконтент в социальных сетях, комментируют маршрут в навигаторе, их голосами говорят интеллектуальные устройства.
Так как же это произошло? И должны ли дикторы беспокоиться о том, что искусственный интеллект захватит индустрию озвучивания?
Привет, меня зовут Андрей Одинцов, я развиваю умный онлайн-сервис заказа озвучки Overvoice. О тонкостях выбора подходящих дикторов для разных проектов знаю не понаслышке: я работаю в индустрии озвучивания 15 лет и понимаю, на чём строится вся цепочка от начала формирования заказа до непосредственного выпуска аудиопродукции в эфир.
В этой статье:
- Генерируемых голосов становится больше
- Широкие возможности для использования озвучки от искусственного интеллекта
- Почти человеческое звучание
- Смогут ли искусственные голоса заменить человеческие?
Генерируемых голосов становится больше
Нельзя отрицать, что голоса, генерируемые искусственным интеллектом, берут мир штурмом. Вы вряд ли сможете пролистать ленту какой-либо соцсети и не наткнуться на видео, озвученное роботизированным голосом. Некоторые сайты даже предоставляют посетителям возможность прослушивать статьи. ВКонтакте тоже пошёл этим путём и позволяет слушать лонгриды, опубликованные на платформе. А те, кто пользуется Яндекс-браузером, могут озвучить любую страницу благодаря встроенной функции озвучивания в самом браузере.
Год назад компания Apple последовала за всеобщим интересом к генерации голосов и запустила сервис, который позволил озвучивать аудиокниги, как вы уже догадались, при помощи искусственного интеллекта. Главной задачей стала помощь мелким издателям и менее известным авторам сэкономить время и деньги на озвучке, ведь записать аудиокнигу с диктором-человеком гораздо дороже и требует много времени.
Дёшево, быстро и легко — вот причины, по которым все с таким интересом смотрят на озвучку при помощи нейросетей.
Широкие возможности для использования озвучки от искусственного интеллекта
Где на сегодняшний день может пригодиться автоматизированное озвучивание? Если бы я задал этот вопрос несколько лет назад, то в первую очередь мы обсуждали бы запись приветственных сообщений на автоответчике. Но развитие технологии уже шагнуло дальше базовых задач, поэтому синтезаторы речи позволяют создавать озвучку для игр, видео, электронных курсов и многого другого.
В целом, с помощью генератора голоса на базе искусственного интеллекта можно получить вполне реалистичную и выразительную озвучку для самых разных проектов. И всё это осуществляется за секунды.
Сгенерированные голоса облегчили жизнь не только тем, кто занимается производством контента, но и сделали качественней жизнь людей с нарушениями чтения или зрения. И есть даже совсем фантастические случаи, когда людям после травм или болезней возвращают способность говорить. Например, американка Энн Джонсон с помощью мозгового имплантата и искусственного интеллекта может общаться устно через цифровой аватар, хотя 19 лет назад потеряла возможность говорить из-за перенесённого инсульта.
Предполагаю, что с развитием технологии автоматизированного озвучивания мы станем свидетелями и более инновационных вариантов использования искусственных голосов.
Почти человеческое звучание
Возможно, немногие знают, но синтезированием речи люди занимаются далеко не первый десяток лет. Первая говорящая машина появилась в 1784 году. Над её изобретением работал высокопоставленный чиновник при австрийском дворе Вольфганг фон Кемпелен. На этой машине нужно было играть как на музыкальном инструменте, и тогда она издавала звуки, похожие на слова «мама» и «папа».
Спустя 200 с лишним лет говорящие машины нашего времени — это зарубежные Siri, Cortana, Alexa и наши российские Алиса и Маруся — красноречиво общаются с нами. Конечно, они намного опередили своего предка-говорящую машину, но им всё ещё недостаёт качеств, которые позволяют говорить по-человечески.
Голоса искусственного интеллекта создаются с помощью передовых алгоритмов машинного обучения. Первоначально в модель ИИ вводятся широкие данные для обучения: обширный спектр человеческих голосов, речевых моделей и интонаций. На этих данных искусственный интеллект учится понимать фонемы, слова и структуры предложений.
С помощью преобразования текста в речь (TTS), ИИ разбивает письменный текст на фонетические компоненты, предсказывая наиболее естественный способ его озвучивания на основе своего обучения. Затем нейронные сети генерируют последовательности спектрограмм, представляющие акустические характеристики речи. Эти спектрограммы преобразуются в сигналы, в результате чего речь становится реалистичной.
В гонку по исследованию и разработке новых инструментов, которые улавливают нотки естественности в речи человека включается всё больше и больше технологических компаний. Мы видим, что голоса искусственного интеллекта значительно продвинулись вперёд, и вот уже некоторые роботы больше не звучат как роботы. Но это на первый взгляд (до первого очень вдумчивого прослушивания). Даже такому технологическому гиганту как Apple до сих пор не под силу сгенерировать голос так, чтобы слушатели аудиокниг, озвученные искусственным интеллектом Apple, не могли определить, кто же всё таки находился у микрофона: человек или робот. Беатрис Нолан из Business Insider провела слепой тест и смогла довольно легко отличить синтезированный голос от человеческого. Среди основных «претензий» к сгенерированным голосам — это их идеальность, повторяющиеся интонации, слишком короткие паузы и отсутствие эмоций.
Смогут ли искусственные голоса заменить человеческие?
На самом деле невероятно, насколько далеко зашли технологии в имитации наших голосов. Но возникают вопросы: ставит ли искусственный интеллект под угрозу представителей индустрии озвучивания, а именно дикторов? Началась ли уже война с роботами?
Мои коллеги-дикторы обеспокоены тем, что мир в конце концов предпочтёт дешевые цифровые голоса. Уже есть прецеденты, когда на основе голосов определённых дикторов были созданы голосовые помощники, а затем сами дикторы лишились новых заказов и проектов, потому что их исходный голос оказался излишне растиражирован и доступен в синтезаторах речи. Кроме того, ведутся судебные разбирательства по защите авторских прав в ситуациях, когда дикторов даже не уведомляли о том, что в дальнейшем их голоса будут синтезированы для других проектов, в том числе категории 18+. Один из таких скандалов, скорее всего, вы помните: в прошлом году актриса дубляжа Алёна Андронова обнаружила на сайте одного очень известного банка, что её голос доступен для синтеза в любом проекте без её согласия.
Глядя на то, что происходит в индустрии, Союз дикторов России ещё год назад выступил с предложением урегулирования использования синтезированных голосов на законодательном уровне. Идею подхватили в Совете Федерации и взялись за подготовку законопроекта, который будет охранять дикторские голоса. Разрулит ли сложившуюся ситуацию закон, поживём — увидим.
Если же пытаться ответить на вопрос, смогут ли искусственные голоса заменить человеческие, то здесь нет простого ответа. С одной стороны, мы видим, что с небольшими задачами нейросети отлично справляются. Озвучить автоответчик или урок электронного курса им точно по плечу, а вот аудиорекламу — не под силу. Здесь нужны эмоции, которые искусственный интеллект не способен передать. Тогда как «живой» диктор сможет вложить в озвучиваемый текст и неподдельную радость, и небывалый восторг, и даже продемонстрировать резкую перемену настроения.
Все эти эмоции важны не для галочки. Каким-то необъяснимым чутьём мы ощущаем, что озвучивает робот. И вроде бы звучит это хорошо, а иной раз даже идеально, но удовольствия от прослушивания не доставляет, а значит, и доверия не вызывает. Люди согласны потреблять подобный контент очень дозированно и по большей части исключительно в информационных целях. Но там, где нужно более глубокое погружение и включение чувств, сгенерированные голоса будут вызывать раздражение у слушателей, хоть они и будут звучать как человеческие.
Искусственному интеллекту ещё предстоит пройти долгий путь, прежде чем он сможет по-настоящему копировать дикторские навыки. Дикторы привносят в свою работу артистизм, которого, увы, пока ещё не могут достичь машины. И здесь не только речь об эмоциях. Профессиональные дикторы вкладывают в работу всю свою душу.
Живые голоса привносят теплоту и искренность, которую трудно повторить. И вместо того, чтобы бояться неизбежного развития технологии искусственного интеллекта, индустрия озвучивания может принять её и сосуществовать. Будущее индустрии, скорее всего, будет заключаться не в выборе между дикторами и нейросетями, а в поиске гармоничного сочетания обоих вариантов.
Если вы ищете голос для своего проекта и вас интересует исключительно озвучка настоящим диктором-человеком, который предлагает студийное качества звука без огромных финансовых затрат, попробуйте онлайн-сервис Overvoice. Это широкая база голосов, сотрудничество напрямую с дикторами, оплата картой или с расчётного счёта и отсутствие переплат.