ALE
[Перевод] Новая реализация любопытства у ИИ. Обучение с вознаграждением, которое зависит от сложности предсказать результат выдачи
Прогресс в игре «Месть Монтесумы» многими рассматривался как синоним достижений в области исследования незнакомой среды Мы разработали метод случайной дистилляции сети (Random Network Distillation, RND) на основе прогнозирования, который поощряет агентов обучения с подкреплением исследовать окружение благодаря любопытству. Этот метод…
Читать дальшеПаблик ВКонтакте
Последние посты
- BAE Systems успешно протестировала солнечный самолет: псевдоспутник в стратосфере находился 24 часа на высоте свыше 20 км
- «Курчатовский институт» модернизирует свой синхротрон для увеличения длительности излучения и десятикратного повышения его яркости
- Без шуток — шмели тоже обучаются и не полагаются только на «инстинкты»
- Роскосмос подготовил ракету «Союз-2.1б» для запуска спутника «Ресурс-П»
- Использование нейросетей, RL и байесовской оптимизации на ускорителях заряженных частиц