LeWorldModel (LeWM) представляет собой инновационную архитектуру, разработанную командой Яна Лекуна, которая задает новые стандарты в области создания универсальных моделей мира. В рамках концепции Joint Embedding Predictive Architecture (JEPA) Лекун предлагает отойти от классического прогнозирования отдельных пикселей или токенов. Вместо этого акцент смещается на извлечение высокоуровневых смысловых структур, что позволяет ИИ глубже интерпретировать физические закономерности и логическую взаимосвязь происходящих процессов.
Ключевым барьером для ранних итераций JEPA была склонность моделей к «коллапсу представлений», когда система генерировала тривиальные решения, не отражающие реальную структуру среды. Разработчики LeWM преодолели это препятствие, представив первую стабильную версию архитектуры, способную к сквозному обучению непосредственно на визуальном потоке данных. Имея всего 15 миллионов параметров, модель демонстрирует высокую устойчивость благодаря уникальному регуляризатору SIGReg, который удерживает латентные состояния в рамках изотропного гауссовского распределения.
Конструктивно LeWM базируется на синергии энкодера и предиктора. Энкодер на основе Vision Transformer (ViT) трансформирует входные кадры в лаконичные скрытые представления, а предиктор, также использующий трансформерную архитектуру, воспроизводит динамику среды, рассчитывая последующие состояния с учетом текущего контекста и совершаемых действий. Столь компактный объем параметров обеспечивает модели исключительную вычислительную легкость и быстродействие.

Визуализация подготовлена: Ray3.14
Эффективность системы подтверждена практическими испытаниями: в сценариях PushT и Reacher модель достигла результативности в 96% и 86% соответственно, продемонстрировав превосходство над существующими аналогами. (PushT — тест на точность манипулирования объектами в физической среде; Reacher — классическая задача робототехники по достижению целевой точки манипулятором). Благодаря оптимизации латентных пространств, процесс планирования в LeWM происходит до 48 раз быстрее, чем у тяжеловесных фундаментных моделей вроде DINO-WM.
Одним из прорывных достижений LeWM стала способность формировать пространство признаков, которое кодирует фундаментальные физические характеристики объектов. Это позволяет алгоритму распознавать аномалии (например, мгновенное перемещение предметов) через анализ «уровня неожиданности». Тесты подтвердили, что модель с высокой достоверностью извлекает координаты и ключевые параметры физического взаимодействия из необработанных данных.
Несмотря на очевидные достоинства — стабильность обучения, минимальные системные требования и высокую скорость работы — LeWM сохраняет зависимость от качества обучающей выборки и может проявлять избыточность в предельно упрощенных средах. Вектор будущих разработок направлен на интеграцию иерархических механизмов моделирования мира, что позволит расширить горизонт планирования для решения долгосрочных задач.
LeWorldModel открывает принципиально новые возможности для развития предсказательных систем. Сочетание компактности, стабильности и способности к физической интерпретации делает её идеальным фундаментом для автономных агентов, способных обучаться на «сырых» данных и принимать решения в реальном времени. Данная архитектура прокладывает путь к новому поколению ИИ, обладающему глубоким пониманием динамики окружающего мира.
Источник: iXBT


