Amazon представила модель Nova Sonic для диалогов, неотличимых от человеческих

Корпорация Amazon представила Nova Sonic — интегрированную модель, сочетающую функции распознавания, анализа и синтеза речи. Эту технологию, доступную через API на платформе Bedrock, можно использовать для внедрения голосовых интерфейсов в приложениях, которые смогут поддерживать естественные диалоги с учетом пауз, перебивок и контекста. Некоторые элементы модели уже задействованы в обновленном функционале Alexa+.

«Ранее разработчикам требовалось совмещать три отдельные системы, что осложняло процесс и ухудшало качество взаимодействия», — отметил Рохит Прасад, старший вице-президент по ИИ в Amazon. Nova Sonic сохраняет акустические особенности, такие как тон и ритм, что придаёт диалогам естественность. Модель обрабатывает запросы в режиме реального времени и, например, корректирует ответы при прерываниях, что особенно важно для служб поддержки.

Amazon представила модель Nova Sonic для диалогов, неотличимых от человеческих
Источник: Leonardo

Nova Sonic создает текстовые расшифровки разговоров для интеграции с внешними API, облегчая разработку AI-агентов. В тестах модель превзошла Gemini Flash 2.0 (с показателем 69,7% успеха) и GPT-4o (51%) в диалогах на английском языке. Задержка Nova Sonic составляет 1,09 секунды, тогда как у OpenAI — 1,18 секунды, а у Google — 1,41. Стоимость использования этой модели на 80% ниже, чем у GPT-4o. Точность Nova Sonic в поддержке мультиязычных диалогов также выше: уровень ошибок (WER) составляет 4,2% по сравнению с 6,6% у GPT-4o Transcribe.

Среди первых примеров внедрения — оптимизация работы контакт-центров (ASAPP), обучение произношению (Education First) и голосовой доступ к спортивной аналитике (Stats Perform).

Amazon подчеркивает ответственное использование технологии: в модель встроены механизмы защиты от «галлюцинаций» и предотвращение клонирования голосов. В настоящее время Nova Sonic поддерживает американский и британский английский, и разрабатываются новые языки и акценты. Прасад назвал это «высокой планкой надежности, соответствующей эпохе, где голос становится новым интерфейсом».

 

Источник: iXBT

Читайте также