Ну вот и настал момент, когда искусственный интеллект начал обучать роботов. Компания Nvidia разработала ИИ-агент Eureka, который умеет обучать роботов сложным двигательным навыкам.
К примеру, Eureka обучил роботизированную руку пенспиннингу — быстрому жонглированию ручки пальцами. Конечно, обучалась виртуальная модель роботизированной руки, но это не имеет особого значения.
В целом ИИ-агент Nvidia обучил роботов почти 30 различным задачам, включая открывания дверцей шкафа, бросанию и ловле мячика и так далее. Некоторые из этих действий могут показаться очень простыми, но это лишь потому, что мы умеем это делать автоматически и не задумываясь.
Eureka опирается на языковую модель GPT-4. Обучение происходило в приложении для моделирования физики Nvidia Isaac Gym.
Обучение с подкреплением позволило добиться впечатляющих успехов за последнее десятилетие, однако многие проблемы все еще существуют, например, дизайн вознаграждений, который остается процессом проб и ошибок. Eureka — это первый шаг на пути к разработке новых алгоритмов, которые объединяют методы генеративного обучения и обучения с подкреплением для решения сложных задач
Важно отметить, что эффективность ИИ-агента Nvidia очень высока. Как сказано в пресс-релизе, программы вознаграждения, созданные Eureka, которые позволяют роботам обучаться методом проб и ошибок, превосходят программы, написанные экспертами, в более чем 80% задач. Это приводит к среднему повышению производительности ботов более чем на 50%.
Агент ИИ использует языковую модель GPT-4 и генеративный ИИ для написания программного кода, который вознаграждает роботов за обучение с подкреплением. Он не требует подсказок для конкретных задач или заранее заданных шаблонов вознаграждений и легко учитывает отзывы людей, чтобы изменить вознаграждения для получения результатов, более точно соответствующих видению разработчика.
Используя моделирование с ускорением на графическом процессоре в Isaac Gym, Eureka может быстро оценить качество больших партий кандидатов на вознаграждение для более эффективного обучения. Затем Eureka составляет сводную информацию о ключевых статистических данных по результатам обучения и дает указание языковой модели улучшить генерирование функций вознаграждения. Таким образом, ИИ самосовершенствуется. Он научил всех видов роботов — четвероногих, двуногих, квадрокоптеров, роботов с ловкими руками, коботов-манипуляторов и других — выполнять самые разные задачи
Источник: iXBT