Xiaomi бросает вызов лидерам ИИ: представлены новые модели MiMo-V2-Pro, MiMo-V2-Omni и MiMo-V2-TTS

Технологический гигант Xiaomi презентовал трио передовых моделей искусственного интеллекта: MiMo-V2-Pro, MiMo-V2-Omni и MiMo-V2-TTS. Новинки уже интегрированы в программную среду компании, включая браузер Xiaomi, MiMo Studio и офисный пакет Kingsoft. Инструментарий также доступен внешним специалистам через платформы OpenClaw, OpenCode и Cline, причём для девелоперов предусмотрен бесплатный ознакомительный период сроком на одну неделю.

Ключевым решением в линейке стала MiMo-V2-Pro, которую Xiaomi позиционирует как флагманский продукт для грядущей «эры ИИ-агентов». Модель спроектирована для выполнения ресурсоёмких вычислений в реальных условиях; её архитектура включает более 1 триллиона параметров, а объём контекстного окна достигает 1 МБ.

В Xiaomi подчеркивают, что MiMo-V2-Pro демонстрирует высокую эффективность в автономном решении комплексных задач, таких как долгосрочное планирование и структурирование рабочих процессов внутри агентских систем. По заверениям компании, производительность нейросети сопоставима с показателями Claude 4.6, при этом эксплуатация через API обходится значительно дешевле. Стоимость стартует от 1 доллара за миллион входных токенов для стандартных запросов, увеличиваясь пропорционально объёму контекста.

Xiaomi бросает вызов лидерам ИИ: представлены новые модели MiMo-V2-Pro, MiMo-V2-Omni и MiMo-V2-TTS

Визуализация Grok

Данная разработка глубоко внедрена в экосистему WPS Office от Kingsoft, где она помогает оптимизировать работу с текстовыми файлами, таблицами, презентациями и документами в формате PDF.

Модель MiMo-V2-Omni базируется на мультимодальном подходе и сфокусирована на одновременной обработке аудиопотоков, изображений и видео. Разработчики заявляют о лидирующих позициях в области визуального анализа и распознавания звуковых образов.

Нейросеть способна обрабатывать длительные аудиозаписи, идентифицировать нескольких спикеров одновременно и проводить комплексный анализ медиаконтента, что открывает широкие возможности применения за пределами текстовых операций. Согласно внутренним тестам Xiaomi, в ряде сценариев распознавания звука модель превосходит возможности таких систем, как Gemini 3 Pro.

За синтез речи отвечает MiMo-V2-TTS. В этой модели реализована возможность тонкой настройки тембра, эмоционального фона и стилистики высказываний. Система способна генерировать как естественную человеческую речь, так и вокальные партии, поддерживая при этом множество китайских диалектов.

Стоит отметить, что в прошлом году Xiaomi представила MiMo — свою дебютную открытую языковую модель, ориентированную на решение логических и математических задач.

В то же время Илон Маск анонсировал, что компания xAI уже к ближайшим выходным запустит параллельный процесс обучения сразу трёх различных версий модели Grok.

 

Источник: iXBT

Читайте также