ALE
[Перевод] Новая реализация любопытства у ИИ. Обучение с вознаграждением, которое зависит от сложности предсказать результат выдачи
Прогресс в игре «Месть Монтесумы» многими рассматривался как синоним достижений в области исследования незнакомой среды Мы разработали метод случайной дистилляции сети (Random Network Distillation, RND) на основе прогнозирования, который поощряет агентов обучения с подкреплением исследовать окружение благодаря любопытству. Этот метод…
Читать дальшеПаблик ВКонтакте
Последние посты
- Разрыв в эффективности ИИ-моделей США и Китая сократился до 2,7% при 23-кратной разнице в инвестициях
- Google ведет переговоры с Marvell о производстве новых ИИ-чипов для инференса
- Интервью с Young MayLay: голос СиДжея о GTA: San Andreas, ожиданиях от GTA 6 и многом другом
- Apple осваивает рынок серверов на фоне роста спроса на локальный ИИ
- Власти Сиэтла рассматривают запрет на строительство дата-центров из-за энергокризиса
