ALE
[Перевод] Новая реализация любопытства у ИИ. Обучение с вознаграждением, которое зависит от сложности предсказать результат выдачи
Прогресс в игре «Месть Монтесумы» многими рассматривался как синоним достижений в области исследования незнакомой среды Мы разработали метод случайной дистилляции сети (Random Network Distillation, RND) на основе прогнозирования, который поощряет агентов обучения с подкреплением исследовать окружение благодаря любопытству. Этот метод…
Читать дальшеПаблик ВКонтакте
Последние посты
- Huawei Pura X2 станет единственным в своем роде смартфоном 2026 года для любителей кино
- Новая версия Huawei Mate 80 обеспечила взрывной рост продаж серии до 4,7 млн единиц
- Первое живое фото Honor X80i: смартфон получит внушительный аккумулятор на 7000 мАч
- Слух: EA готовит анонс Star Wars Jedi 3 к Дню «Звёздных войн»
- Искусственный интеллект в стакане воды: невидимая угроза, которую никто не знает, как устранить
