[RL] offline RL constraint 유형 정리
·
ML & DL/RL
💡 offline RL constraint 방식 구분 1. 분포 제약(Distribution Constraint)학습된 정책이 행동 정책의 분포와 유사한 분포에서 동작을 선택하도록 강제하는 방식해당되는 알고리즘: BEAR (Batch-Constrained Q-learning), BRAC (Behavior Regularized Actor Critic)동작 방식: 분포 제약은 행동 정책(behavior policy)이 생성한 상태-동작 분포를 기반으로 학습된 정책이 유사한 상태-동작 쌍을 선택하도록 한다. 학습된 정책이 기존 행동 정책의 동작 패턴을 유지하게 함으로써, 데이터셋의 분포를 벗어나지 않도록 제약한다.특징정책이 데이터셋 분포 내에서만 동작을 선택하도록 강제한다.정책이 확률적으로 행동 정책과 비슷..