Рекуррентное обучение с подкреплением без модели для POMDP

Обзор исследования ученых кафедры Машинного обучения в Университете Карнеги-Меллона о представлении обучения с подкреплением (Reinforcement Learning) в виде частично наблюдаемых марковских процессов (POMDP).
Читать дальше