На конференции AI Journey 2025 официально представили MERA Multi — новый комплексный бенчмарк для оценки мультимодальных возможностей современных моделей на русском языке.
Экосистема бенчмарков MERA представляет собой независимый набор тестов для проверки способностей больших языковых моделей в русскоязычном контексте. Ранние релизы MERA включали текстовые модули и специализированные секции (например, MERA Code для задач программирования и MERA Industrial для отраслевых сценариев).
MERA Multi содержит 18 новых заданий, созданных по методологии MERA Text. Эти задания направлены на проверку основных мультимодальных компетенций моделей:
- Визуальное восприятие: умение анализировать изображения — распознавать объекты, интерпретировать сцены и соотносить визуальную информацию с текстовыми описаниями. Это важно для систем генерации и поиска по изображениям, а также для прикладных решений в области безопасности.
- Аудиопонимание: способность корректно обрабатывать аудиоконтент на русском языке — распознавать речь, интонации и характерные звуковые маркеры. Навык необходим для голосовых ассистентов и приложений, работающих в шумной среде.
- Анализ видео: умение «понимать» динамику видеоматериалов — отслеживать действия, фиксировать события и выявлять причинно-следственные связи во временном контексте. Это база для интеллектуальных агентов, ассистентов и мультимодального поиска.
Каждое задание оформлено в строгом инструктивном формате. MERA Multi охватывает четыре модальности — текст (как базовая), изображения, аудио и видео — и оснащён прозрачной системой начисления баллов и ранжирования. Для исследователей и индустрии это даёт возможность количественно сравнивать, насколько хорошо современные модели «видят», «слышат» и понимают контент на русском языке.
Проект также продвигает стандартизацию оценки ИИ в России: разработчики сформировали единую «таксономию навыков» — системное описание компетенций, необходимых для мультимодальных задач. В перспективе все бенчмарки MERA будут использовать общую систему навыков, что обеспечит согласованную и прозрачную оценку моделей в разных доменах и упростит их сравнительный анализ и выявление направлений для развития.
MERA Multi создавался экспертами с учётом российской специфики, что делает получаемые результаты особенно релевантными для отечественных научных коллективов и промышленных разработчиков.
Как отметила Валерия Воробьёва, стандартизация имеет критическое значение:
«Единый подход к оценке моделей позволяет формировать общую «шкалу» качества и координировать усилия внутри страны. MERA Multi создаёт такой стандарт — он даёт российским разработчикам и исследователям понятную методологию сравнения моделей и синхронизирует наши усилия. Это ключевой шаг для развития качественных отечественных ИИ-решений в будущем».

