Xiaomi открыла доступ к OmniVoice: нейросеть для клонирования голоса на 646 языках обошла коммерческие аналоги

Исследовательское подразделение Xiaomi AI Labs представило OmniVoice — передовую систему для синтеза речи и клонирования тембра, поддерживающую 646 языков. Технология позволяет ИИ создавать точную цифровую копию голоса на основе короткого аудиообразца, после чего синтезированная речь звучит аутентично даже при переключении на иностранные языки. Проект распространяется по модели open source: пользователям доступны исходный код, веса нейросети и обучающие наборы данных.

В основе OmniVoice лежит оптимизированная архитектура, обеспечивающая впечатляющую производительность: генерация речи происходит в 40 раз быстрее темпа человеческой речи без необходимости в сложной настройке. Достичь такого уровня качества разработчикам удалось благодаря интеграции предобученных параметров крупных языковых моделей.

Xiaomi открыла доступ к OmniVoice: нейросеть для клонирования голоса на 646 языках обошла коммерческие аналоги
Изображение Grok

Фундаментом для обучения послужил массив из 50 открытых аудиодатасетов общим объемом 580 000 часов, прошедших тщательную очистку от шумов. Сравнительное тестирование показало, что по параметрам естественности звучания и четкости дикции OmniVoice превосходит многие платные аналоги, а при анализе 102 языков качество синтеза практически не отличимо от живой человеческой речи.

Функционал модели также включает гибкую настройку характеристик голоса через текстовые подсказки, продвинутое шумоподавление, внедрение естественных эмоций (например, смеха или вздохов), а также возможность точной коррекции произношения специфических терминов и имен собственных.

 

Источник: iXBT

Читайте также