[RL] Model-based offlineRL 8가지 알고리즘 개념 정리(BCQ, CQL, PLAS, BCQ, EDAC, MCQ, TD3BC, PRDC)
·
ML & DL/RL
(2018) [BCQ] Off-Policy Deep Reinforcement Learning without Explorationhttps://arxiv.org/abs/1812.02900Scott Fujimoto, David Meger, Doina PrecupAbstract많은 강화학습 응용은 고정된 데이터 배치에서 학습해야 하며, 추가적인 데이터 수집이 불가능함.표준 Off-policy 알고리즘(DQN, DDPG)은 현재 정책과 상관된 데이터가 없으면 학습할 수 없으며, 고정된 배치 설정에서 효과적이지 않음.Batch-Constrained Reinforcement Learning을 제안하며, 에이전트가 행동 공간을 제한하여 주어진 데이터와 On-policy에 가깝게 행동하도록 유도함.BCQ 알고리즘은 연..