Технологический стартап xAI, возглавляемый Илоном Маском, презентовал инновационный API для синтеза речи (Text-to-Speech), способный преобразовывать сухой текст в живую и глубоко эмоциональную озвучку.
На текущий момент пользователям доступны пять самобытных тембров: Eve, Ara, Rex, Sal и Leo. Ключевой особенностью инструмента стала возможность тонкой настройки интонаций и экспрессии непосредственно в текстовом поле. Система распознает контекстные вставки, такие как: «Я вошел и [пауза] увидел это. [смех] Просто невероятно!», а также поддерживает специальные теги — например, <whisper> для перехода на шепот или <slow> для замедления темпа. Судя по первым отзывам, такие нюансы, как естественное дыхание, вздохи и вариации тональности, интегрируются в аудиопоток органично и без сложного конфигурирования.

Изображение Grok
Интерфейс поддерживает протокол WebSocket для организации потокового вещания в режиме реального времени и совместим с различными аудиоформатами, включая MP3 и mu-law.
Источник: iXBT


