Компания «Яндекс» активно работает над новой нейросетевой моделью, получившей название SpeechGPT, которая умеет одновременно обрабатывать текстовую и звуковую информацию.
Об этом стало известно из раздела вакансий на сайте компании, о чем сообщает издание «Коммерсантъ». В объявлении говорится о необходимости привлечения специалиста в области машинного обучения для работы над мультимодальной моделью. Данная технология позволяет интерпретировать и отвечать как в текстовом, так и в аудиоформате, обеспечивая решение различных задач по обработке данных.
В «Яндексе» уточнили, что работа над мультимодальными возможностями продолжается в рамках существующих сервисов, таких как голосовой ассистент «Алиса». Вопрос о специфике новой модели SpeechGPT на данный момент остаётся без комментариев.
Уже сегодня нейросетевые сервисы «Яндекса», например, «Алиса», демонстрируют возможность взаимодействия как с аудиозапросами, так и с текстовыми. В последнее время функционал таких сервисов значительно расширился: например, сервис Yandex SpeechSense, изначально созданный для анализа работы колл-центров, теперь способен обрабатывать текстовые сообщения.
Особенность мультимодальных моделей, по мнению экспертов, заключается в их способности обрабатывать данные в режиме реального времени без необходимости преобразования информации из одного формата в другой, что значительно ускоряет и упрощает процесс обработки запросов.
Мультимодальные модели также расширяют применение речевых технологий, делая их более доступными и интегрируя различные технологические процессы в единый интерфейс. Это открывает новые перспективы для развития речевых интерфейсов и повышает их эффективность и удобство для пользователей в решении разнообразных задач.