МТС представила мультимодальную ИИ‑модель Cotype VL

МТС представила мультимодальную ИИ‑модель Cotype VL

Компания MWS AI (дочерняя структура МТС) разработала решение, способное одновременно анализировать и интерпретировать изображения и текст, — сообщает Forbes со ссылкой на генерального директора MWS AI Дениса Филиппова.

По данным компании, Cotype VL базируется на открытой модели Qwen 2.5‑VL от Alibaba Cloud, включает около 32 миллиардов параметров и распознаёт изображения с печатным, рукописным и смешанным текстом.

MWS AI предлагает Cotype VL как отдельный продукт, так и в составе ИИ‑ассистентов для широкого круга задач: от поиска по документам с визуальным содержимым до поддержки клиентов по скриншотам и подготовки отчётов на основе графических данных.

Модель учитывает визуальный контекст при машинном переводе, умеет формировать как краткие, так и подробные описания изображений, а также отвечать на сложные вопросы о их содержании, требующие рассуждений, сопоставлений и выводов.

«Новая модель эффективно обрабатывает схемы, чертежи, технические иллюстрации, карты и иные визуальные данные, поэтому будет востребована в ИИ‑решениях для проектно‑инженерных служб, юридических, финансовых и кадровых подразделений, а также в маркетинге при работе с разнородными форматами контента», — отметил Филиппов.

В MWS AI подчёркивают, что для обучения Cotype VL была сформирована русскоязычная выборка из различных отраслей — финансы, промышленность, IT, телеком и здравоохранение — в общей сложности более 150 000 документов с визуальной информацией. Кроме того, модель обучали на скриншотах интерфейсов бизнес‑приложений, инженерного ПО, продуктов экосистемы МТС и игровых приложений.

 

Источник