Экосистема VK приступила к внедрению мультимодальных визуально-языковых моделей (VLM), способных на глубоком уровне обрабатывать текстовую информацию, графику, аудио и видеоряд. Новое технологическое решение уже интегрировано в платформу «VK Видео», а в перспективе оно станет доступно во всех сервисах компании, оснащенных функциями поиска.

Обновленная модель анализирует не только заголовки и описания, но и внутреннее содержание контента, что значительно повышает точность выдачи. Благодаря VLM формирование обучающих датасетов происходит автоматически, помогая алгоритмам максимально точно сопоставлять видеоролики с интентами пользователей. Это решение выводит на новый уровень векторный поиск, базирующийся на смысловом значении запроса, а не простом совпадении слов.
По словам разработчиков, ИИ теперь точнее распознает стилистические нюансы — например, манеру монтажа или особенности цветокоррекции, а также успешно обрабатывает детализированные запросы вроде «авторский влог из Стамбула с видами на пролив Босфор». В компании особо отметили:
«Подобный подход позволяет сделать поисковые результаты более индивидуальными. Использование VLM в пять раз ускоряет процессы проектирования и внедрения передовых технологий, направленных на глобальную оптимизацию поиска во всей линейке продуктов VK».
Источник: iXBT


