Xiaomi представила модель Xiaomi-Robotics-0 на 4,7 млрд параметров для большой робототехники

Технологический гигант Xiaomi представил Xiaomi-Robotics-0 — свою дебютную полномасштабную модель для робототехники, выпущенную с открытым исходным кодом.

Система, насчитывающая 4,7 млрд параметров, базируется на концепции VLA (vision-language-action). Она интегрирует зрительное восприятие, лингвистический анализ и мгновенное выполнение физических команд в единый комплекс, формируя фундамент так называемого «физического интеллекта». Согласно официальным данным, разработка демонстрирует эталонную эффективность как в виртуальных симуляциях, так и в ходе полевых испытаний.

Xiaomi представила модель Xiaomi-Robotics-0 на 4,7 млрд параметров для большой робототехники
Фото: Xiaomi

Архитектурное решение Mixture-of-Transformers распределяет нагрузку между двумя ключевыми компонентами. Визуально-языковая модель (VLM) сфокусирована на интерпретации инструкций и анализе пространственной структуры окружения. Параллельно с ней «эксперт по действиям» (Action Expert) на базе диффузионного трансформера проектирует сложные траектории движений, гарантируя их плавность и ювелирную точность. Совместное обучение на мультимодальных и сенсомоторных наборах данных позволило наделить алгоритм способностью к рассуждению без ущерба для координации действий.

Robotics-0 подтвердила свое превосходство в бенчмарках LIBERO, CALVIN и SimplerEnv, а также успешно справилась с практическими операциями на двуручном манипуляторе — от деликатного складывания вещей до прецизионной работы с деталями.

С целью минимизации отклика разработчики внедрили механизмы асинхронного вывода и динамической стабилизации. Это обеспечило естественность поведения робота и его высокую адаптивность к меняющимся внешним условиям.

 

Источник: iXBT

Читайте также