Команда социальной сети «ВКонтакте» рассказала о новых возможностях технологии распознавания голосовых сообщений.
Теперь за секунду можно расшифровать записи продолжительностью до двух минут — это 99% всех аудио, которые отправляют пользователи. Теоретически, пользователи соцсети могут записать голосовое сообщение длительностью до часа.
Технология распознавания аудиосообщений — собственная разработка команды «ВКонтакте». Чтобы переводить в текст более продолжительные записи, не жертвуя скоростью, разработчики нашли решение. Алгоритмы автоматически разбивают длинное аудио на короткие блоки, расшифровывают их все одновременно, а затем объединяют обратно в одно сообщение. При этом разделение записи производится, не разбивая слова на части, чтобы не искажать смысл сказанного, — для этого используется технология Voice Activity Detection.
Функция расшифровки голосовых сообщений была представлена «ВКонтакте» летом 2020 года. Благодаря ей пользователям необязательно слушать голосовые сообщения, их можно просто прочитать. Для расшифровки достаточно нажать одну кнопку.
Источник: iXBT