Команда VK, занимающаяся разработкой искусственного интеллекта, представила усовершенствованную систему автоматического распознавания речи (ASR) на основе современных моделей машинного обучения. Как сообщили в пресс-службе компании, обновлённая версия демонстрирует на 20% более высокую точность по сравнению с предыдущей, что заметно улучшает качество субтитров, транскрипций голосовых сообщений и «кружочков» в продуктах VK.

ASR-технология переводит речь в текстовый формат: звук оцифровывается, очищается от шумовых помех и анализируются характеристики голоса. Интеграция нейросетевых моделей и больших языковых моделей (LLM) позволяет системе учитывать контекст, смысловые связи и устойчивые словосочетания при распознавании.
По словам представителей VK, новая версия ASR была дообучена на расширенном наборе аудиодорожек из открытых видеороликов сервиса «VK Видео», что повысило точность распознавания темпа и интонации речи. Внутренние тесты показали, что модель превосходит зарубежные аналоги по показателю WER для русскоязычных звуковых дорожек.
Технологии ASR уже интегрированы в создание субтитров для «VK Видео», «VK Клипах», на образовательной платформе Учи.ру, а также при расшифровке голосовых сообщений в мессенджере «ВКонтакте». Обновлённая система задействована в продуктах «VK Видео» и «VK Клипах», а также в ряде внутренних сервисов VK. В дальнейшем планируется увеличить точность распознавания голосовых сообщений, расширить поддержку дополнительных языков и внедрить диаризацию для разделения речевых потоков по спикерам.
Источник: iXBT



