Рекуррентное обучение с подкреплением без модели для POMDP

13.10.2022 Дарья Каспарьянц

Время на прочтение: 3 мин

Обзор исследования ученых кафедры Машинного обучения в Университете Карнеги-Меллона о представлении обучения с подкреплением (Reinforcement Learning) в виде частично наблюдаемых марковских процессов (POMDP).

В августе 2022 года ученые кафедры Машинного обучения в Университете Карнеги-Меллона (штат Пенсильвания) опубликовали исследование о представлении обучения с подкреплением (Reinforcement Learning)¹ в виде частично наблюдаемых марковских процессов (POMDP)² которое вызвало дискуссии в научном сообществе.

Традиционная проблема обучения с подкреплением, как марковского процесса заключается в отсутствии понимания неопределенностей. В то время как частично наблюдаемые MDP (POMDP) могут фиксировать неопределенности в состояниях, стимулах и динамике в таких областях как робототехника, медицина, обработка естественного языка и пр. То есть, алгоритмы принятия решений в большинстве случаев сконцентрированы на простых проблемах с уже известной информацией. Для реальных ситуаций, где существует зашумленность или отсутствие полноты информации разработаны сложные алгоритмы. В данном исследовании предлагается использовать простые решения на основе POMDP, которые показали лучшую производительность, по сравнению со специальными методами для сложных ситуаций.

POMDP можно использовать для моделирования решений различных проблем RL, включая мета-RL (например, в случае, если переменные задачи не меняются); отказоустойчивость RL (то есть, максимизация результата при наихудшем сценарии); обобщение RL (максимизация отдачи от невидимых задач при тестировании); присвоение временного кредита (зависимость между функцией вознаграждения и историей). В теории, решение всех типов POMDP возможно за счет дополнения RL без моделей архитектурами на основе памяти, например, рекуррентными нейронными сетями (RNN)³. Объединение алгоритма RL с рекуррентной сетью позволит решить две основные задачи: логический вывод и управление. Вывод направлен на вывод апостериорных состояний по сравнению с текущими состояниями, обусловленными историей. Управление направлено на выполнение алгоритмов RL-планирования в предполагаемом пространстве состояний.

Преимущества использования рекуррентного обучения с подкреплением без модели заключаются в простоте (обучение основано на получении вознаграждений); легкости в реализации (для реализации в различных областях можно изменить несколько строк кода); теоретическая обоснованность (RNN – это универсальные аппроксиматоры функций, которые могут выражать любые политики, основанные на памяти). Недостаток заключается в частых сбоях и нестабильности работы. Для его нивелирования можно вводить цели на основе моделей. Однако методы на основе моделей имеют проблему устаревания данных, хранящихся в буфере воспроизведения, а специальные методы требуют больше предположений, чем рекуррентный RL без модели (например, методы мета-RL предполагают постоянство скрытой переменной в пределах одного эпизода).

Эксперименты в ходе исследования доказывают, что использование общего RNN-кодировщика в модели рекуррентной политики (актор) и рекуррентной функции (критик) вызовет больший градиент.⁴ и затруднит обучение. Отдельные кодировщики наоборот могут эффективно обучаться.

Параллельно, следующее соображение относится к области ввода политики⁵ То есть, максимальное входное пространство политики без модели для выполнения действия должно быть историей всех величин, которые наблюдались политикой. Обычно, входное пространство зависит только от величин, имеющих связи со скрытыми состояниями. Таким образом, дополнительная обусловленность разной предыдущей информацией, например, о вознаграждениях, может увеличить вознаграждение до 30%.

По мнению авторов, главная задача состоит в выборе базового алгоритма RL без модели. Авторы экспериментально доказывают, что использование алгоритмов TD3⁶ и SAC⁷вне политики для рекуррентного RL без модели показывают лучший результат, чем традиционные алгоритмы, которые используются для POMDP, в частности, A2C⁸, TRPO⁹ и др.

Кроме этого, проведенные авторами эксперименты доказывают, что длина контекста для повторяющейся политики актор-критик оказывает большое влияние на выполнение задачи, но оптимальная длина зависит от задачи. Варианты RNN, включая LSTM¹⁰и GRU¹¹уменьшают проблемы обучения, но не запоминают долгосрочные зависимости. В задачах POMDP эти зависимости отражают объем памяти, который должен быть у агента для решения задачи.

Основной вывод исследования заключается в использовании перечисленных соображений для увеличения производительности. Однако, проведенные авторами эксперименты не имеют теоретической основы, экспериментальная база требует расширения и выявления сред, в которых представленные алгоритмы не работают. Это будет способствовать развитию дальнейших исследований и поиска решений.

1
Обучение с подкреплением (RL) — это подход к машинному обучению, предполагающий обучение на практике. В то время как другие методы машинного обучения предполагают пассивную передачу входных данных и обнаружение в них структур, для RL используются агенты обучения, обеспечивающие активное принятие решений и обучение на собственных результатах.
2
Ключевое отличие POMDP от MDP заключается в возможности сопоставления историй наблюдения за действиями. То есть, в каждый момент времени агент может наблюдать только ограниченную часть пространства, например, в беспилотном транспорте, и сопоставлять наблюдения в разных моментах времени.
3
Рекуррентные нейронные сети (RNN) – это вид нейронных сетей, где связи между элементами образуют направленную последовательность. Благодаря этому появляется возможность обрабатывать серии событий во времени или последовательные пространственные цепочки.
4
Градиент в нейронных сетях – это вектор частных производных функции потерь по весам нейронной сети. Градиент считается в процессе тренировки нейронной сети и используется в оптимизаторе весов для улучшения качества модели.
5
Функция политики – это функция вероятности оптимального действия.
6
TD3 – это расширение глубинных детерминированных градиентов политик, которые включают две сети значений, отложенные обновления политики и добавление шума к целевому действию.
7
SAC – алгоритм внеполитического обучения с подкреплением, основанный на максимальной энтропии, то есть на распределении вероятностей отражающих текущее состояние данных.
8
Алгоритмы A2C фиксируют, насколько лучше действие сравнивается с другими в данном состоянии.
9
TRPO – алгоритм схожий с методами градиента естественной политики и эффективен для оптимизации больших нелинейных политик, таких как как нейронные сети.
10
LSTM – нейронная сеть с долгой краткосрочной памятью, имеет фильтры для сохранения, восстановления и забывания информации.
11
GRU – разновидность LTSM, имеющая фильтры обновления и фильтры сброса состояния, которые позволяют определять объем получаемой и сохраняемой информации.