Поиск VK стал мультимодальным: к тексту добавились изображения, звук и видео

Экосистема VK приступила к внедрению мультимодальных визуально-языковых моделей (VLM), способных на глубоком уровне обрабатывать текстовую информацию, графику, аудио и видеоряд. Новое технологическое решение уже интегрировано в платформу «VK Видео», а в перспективе оно станет доступно во всех сервисах компании, оснащенных функциями поиска.

Поиск VK стал мультимодальным: к тексту добавились изображения, звук и видео
Изображение создано при помощи нейросети Grok

Обновленная модель анализирует не только заголовки и описания, но и внутреннее содержание контента, что значительно повышает точность выдачи. Благодаря VLM формирование обучающих датасетов происходит автоматически, помогая алгоритмам максимально точно сопоставлять видеоролики с интентами пользователей. Это решение выводит на новый уровень векторный поиск, базирующийся на смысловом значении запроса, а не простом совпадении слов.

По словам разработчиков, ИИ теперь точнее распознает стилистические нюансы — например, манеру монтажа или особенности цветокоррекции, а также успешно обрабатывает детализированные запросы вроде «авторский влог из Стамбула с видами на пролив Босфор». В компании особо отметили:

«Подобный подход позволяет сделать поисковые результаты более индивидуальными. Использование VLM в пять раз ускоряет процессы проектирования и внедрения передовых технологий, направленных на глобальную оптимизацию поиска во всей линейке продуктов VK».

 

Источник: iXBT

Читайте также