'offlinerl' 태그의 글 목록

728x90

SMALL

[RL] Model-based offlineRL 8가지 알고리즘 개념 정리(BCQ, CQL, PLAS, BCQ, EDAC, MCQ, TD3BC, PRDC)

2024.09.24·

ML & DL/RL

(2018) [BCQ] Off-Policy Deep Reinforcement Learning without Explorationhttps://arxiv.org/abs/1812.02900Scott Fujimoto, David Meger, Doina PrecupAbstract많은 강화학습 응용은 고정된 데이터 배치에서 학습해야 하며, 추가적인 데이터 수집이 불가능함.표준 Off-policy 알고리즘(DQN, DDPG)은 현재 정책과 상관된 데이터가 없으면 학습할 수 없으며, 고정된 배치 설정에서 효과적이지 않음.Batch-Constrained Reinforcement Learning을 제안하며, 에이전트가 행동 공간을 제한하여 주어진 데이터와 On-policy에 가깝게 행동하도록 유도함.BCQ 알고리즘은 연..

[RL] offline RL constraint 유형 정리

2024.09.24·

ML & DL/RL

💡 offline RL constraint 방식 구분 1. 분포 제약(Distribution Constraint)학습된 정책이 행동 정책의 분포와 유사한 분포에서 동작을 선택하도록 강제하는 방식해당되는 알고리즘: BEAR (Batch-Constrained Q-learning), BRAC (Behavior Regularized Actor Critic)동작 방식: 분포 제약은 행동 정책(behavior policy)이 생성한 상태-동작 분포를 기반으로 학습된 정책이 유사한 상태-동작 쌍을 선택하도록 한다. 학습된 정책이 기존 행동 정책의 동작 패턴을 유지하게 함으로써, 데이터셋의 분포를 벗어나지 않도록 제약한다.특징정책이 데이터셋 분포 내에서만 동작을 선택하도록 강제한다.정책이 확률적으로 행동 정책과 비슷..

728x90

LIST

티스토리툴바