ALE
[Перевод] Новая реализация любопытства у ИИ. Обучение с вознаграждением, которое зависит от сложности предсказать результат выдачи
Прогресс в игре «Месть Монтесумы» многими рассматривался как синоним достижений в области исследования незнакомой среды Мы разработали метод случайной дистилляции сети (Random Network Distillation, RND) на основе прогнозирования, который поощряет агентов обучения с подкреплением исследовать окружение благодаря любопытству. Этот метод…
Читать дальшеПаблик ВКонтакте
Последние посты
- Вместо RTX 4080 — чип от RTX 3060: блогер из Китая раскрыл новую схему обмана покупателей видеокарт
- Проект высокоскоростной железной дороги из Москвы во Владивосток реализован не будет
- Ryzen 7 9850X3D замечен в тестах: новый игровой 8-ядерник AMD берет 5,75 ГГц по всем ядрам
- Землю накрыл экстремальный поток солнечных протонов: критический уровень опасности превышен в 50 раз
- Экспансия китайского ИИ: доля на мировом рынке взлетела с 1% до 15% всего за год
