VK улучшила ИИ для распознавания речи в «VK Видео», «VK Клипах», «Учи.ру» и «ВКонтакте»

Команда VK, занимающаяся разработкой искусственного интеллекта, представила усовершенствованную систему автоматического распознавания речи (ASR) на основе современных моделей машинного обучения. Как сообщили в пресс-службе компании, обновлённая версия демонстрирует на 20% более высокую точность по сравнению с предыдущей, что заметно улучшает качество субтитров, транскрипций голосовых сообщений и «кружочков» в продуктах VK.


VK улучшила ИИ для распознавания речи в «VK Видео», «VK Клипах», «Учи.ру» и «ВКонтакте»
Иллюстрация создана с помощью Midjourney

ASR-технология переводит речь в текстовый формат: звук оцифровывается, очищается от шумовых помех и анализируются характеристики голоса. Интеграция нейросетевых моделей и больших языковых моделей (LLM) позволяет системе учитывать контекст, смысловые связи и устойчивые словосочетания при распознавании.

По словам представителей VK, новая версия ASR была дообучена на расширенном наборе аудиодорожек из открытых видеороликов сервиса «VK Видео», что повысило точность распознавания темпа и интонации речи. Внутренние тесты показали, что модель превосходит зарубежные аналоги по показателю WER для русскоязычных звуковых дорожек.

Технологии ASR уже интегрированы в создание субтитров для «VK Видео», «VK Клипах», на образовательной платформе Учи.ру, а также при расшифровке голосовых сообщений в мессенджере «ВКонтакте». Обновлённая система задействована в продуктах «VK Видео» и «VK Клипах», а также в ряде внутренних сервисов VK. В дальнейшем планируется увеличить точность распознавания голосовых сообщений, расширить поддержку дополнительных языков и внедрить диаризацию для разделения речевых потоков по спикерам.

 

Источник: iXBT

Читайте также