728x90
반응형
SMALL
[RL] Model-based offlineRL 8가지 알고리즘 개념 정리(BCQ, CQL, PLAS, BCQ, EDAC, MCQ, TD3BC, PRDC)
·
ML & DL/RL
(2018) [BCQ] Off-Policy Deep Reinforcement Learning without Explorationhttps://arxiv.org/abs/1812.02900Scott Fujimoto, David Meger, Doina PrecupAbstract많은 강화학습 응용은 고정된 데이터 배치에서 학습해야 하며, 추가적인 데이터 수집이 불가능함.표준 Off-policy 알고리즘(DQN, DDPG)은 현재 정책과 상관된 데이터가 없으면 학습할 수 없으며, 고정된 배치 설정에서 효과적이지 않음.Batch-Constrained Reinforcement Learning을 제안하며, 에이전트가 행동 공간을 제한하여 주어진 데이터와 On-policy에 가깝게 행동하도록 유도함.BCQ 알고리즘은 연..
[RL] offline RL constraint 유형 정리
·
ML & DL/RL
💡 offline RL constraint 방식 구분 1. 분포 제약(Distribution Constraint)학습된 정책이 행동 정책의 분포와 유사한 분포에서 동작을 선택하도록 강제하는 방식해당되는 알고리즘: BEAR (Batch-Constrained Q-learning), BRAC (Behavior Regularized Actor Critic)동작 방식: 분포 제약은 행동 정책(behavior policy)이 생성한 상태-동작 분포를 기반으로 학습된 정책이 유사한 상태-동작 쌍을 선택하도록 한다. 학습된 정책이 기존 행동 정책의 동작 패턴을 유지하게 함으로써, 데이터셋의 분포를 벗어나지 않도록 제약한다.특징정책이 데이터셋 분포 내에서만 동작을 선택하도록 강제한다.정책이 확률적으로 행동 정책과 비슷..
728x90
반응형
LIST
성장중 •͈ᴗ•͈
'offlinerl' 태그의 글 목록