ALE
[Перевод] Новая реализация любопытства у ИИ. Обучение с вознаграждением, которое зависит от сложности предсказать результат выдачи
Прогресс в игре «Месть Монтесумы» многими рассматривался как синоним достижений в области исследования незнакомой среды Мы разработали метод случайной дистилляции сети (Random Network Distillation, RND) на основе прогнозирования, который поощряет агентов обучения с подкреплением исследовать окружение благодаря любопытству. Этот метод…
Читать дальшеПаблик ВКонтакте
Последние посты
- SoftBank ведёт переговоры с администрацией США о строительстве «промышленных парков Трампа» стоимостью 1 трлн долларов
- Xiaomi уже готовит 17S спустя 2,5 месяца после релиза Xiaomi 17
- Минцифры предложило признавать электронные документы с Госуслуг наравне с бумажными
- Кризис на рынке памяти может продлиться до конца 2027 года и даже дольше
- Broken Arrow: вдох новой жизни или затухающая звезда?

