ALE
[Перевод] Новая реализация любопытства у ИИ. Обучение с вознаграждением, которое зависит от сложности предсказать результат выдачи
Прогресс в игре «Месть Монтесумы» многими рассматривался как синоним достижений в области исследования незнакомой среды Мы разработали метод случайной дистилляции сети (Random Network Distillation, RND) на основе прогнозирования, который поощряет агентов обучения с подкреплением исследовать окружение благодаря любопытству. Этот метод…
Читать дальшеПаблик ВКонтакте
Последние посты
- MacBook Air на M5: 512 ГБ памяти в базовой версии по прежней цене
- Джима Керри заподозрили в создании собственного клона
- Новую «Мумию» с Бренданом Фрейзером описывают как пугающее и грандиозное зрелище
- В марте Nvidia представит принципиально новый ИИ-процессор для инференса на базе технологий Groq
- Двухфазный сон: как технический прогресс изменил наши ночи и чувство времени
