ALE
[Перевод] Новая реализация любопытства у ИИ. Обучение с вознаграждением, которое зависит от сложности предсказать результат выдачи
Прогресс в игре «Месть Монтесумы» многими рассматривался как синоним достижений в области исследования незнакомой среды Мы разработали метод случайной дистилляции сети (Random Network Distillation, RND) на основе прогнозирования, который поощряет агентов обучения с подкреплением исследовать окружение благодаря любопытству. Этот метод…
Читать дальшеПаблик ВКонтакте
Последние посты
- Xiaomi запустила полностью автоматизированную «темную» фабрику, выпускающую кондиционер каждые 6,5 секунды
- Главные экзопланетные открытия 2025 года: самые удивительные находки зарубежных миров
- Грибы вместо оперативной памяти: учёные нашли биологическую альтернативу дорожающей DDR5
- Как зависимость от внешних факторов блокирует способность делать выбор
- Начало нового дефицита? Японские ритейлеры столкнулись с серьезными трудностями при закупках видеокарт

