Инженеры «Яндекса» создали компактную нейросетевую модель для управления голосом, вес которой не превышает 200 КБ. Об этом достижении рассказал Дмитрий Солодуха, возглавляющий отдел голосовой активации компании.

В компании отмечают, что такой объём данных даже меньше среднего размера фотографии со смартфона. Инновация ориентирована на носимую электронику, например, наушники или смарт-часы, ресурсы которых сильно ограничены ёмкостью аккумулятора и производительностью процессора. В отличие от мобильных телефонов, здесь крайне важно обеспечить постоянную локальную обработку звука без лишних задержек и быстрой разрядки батареи.
Для повышения энергоэффективности разработчики внедрили двухступенчатый алгоритм. На первом этапе «облегчённая» нейросеть лишь фиксирует человеческую речь, и только после подтверждения включается основной модуль распознавания команд. Значительного снижения нагрузки удалось добиться за счёт кардинального изменения архитектуры: общее количество параметров нейросети было сокращено десятикратно.
Дополнительным фактором оптимизации стало задействование чипов с NPU — специализированными нейронными процессорами, которые справляются с ИИ-задачами гораздо экономнее, чем стандартные CPU.
Напомним, что «Яндекс» расширяет экосистему носимых девайсов, первыми в которой станут наушники «Яндекс Дропс», оснащённые ИИ-ассистентом «Алиса» и уникальной опцией «Моя память».
Источник: iXBT


