728x90
반응형
💡 offline RL constraint 방식 구분
1. 분포 제약(Distribution Constraint)
학습된 정책이 행동 정책의 분포와 유사한 분포에서 동작을 선택하도록 강제하는 방식
해당되는 알고리즘: BEAR (Batch-Constrained Q-learning), BRAC (Behavior Regularized Actor Critic)
- 동작 방식: 분포 제약은 행동 정책(behavior policy)이 생성한 상태-동작 분포를 기반으로 학습된 정책이 유사한 상태-동작 쌍을 선택하도록 한다. 학습된 정책이 기존 행동 정책의 동작 패턴을 유지하게 함으로써, 데이터셋의 분포를 벗어나지 않도록 제약한다.
- 특징
- 정책이 데이터셋 분포 내에서만 동작을 선택하도록 강제한다.
- 정책이 확률적으로 행동 정책과 비슷한 분포에서 동작을 선택하게 되어, 지나치게 탐색적이지 않다.
- 한계: 학습된 정책이 데이터셋 내 비최적 동작을 그대로 따르게 되어 성능 향상에 제한이 있을 수 있다. 특히, 행동 정책이 비최적일 경우, 성능이 크게 저하될 수 있다.
2. 지원 제약(support constraint)
학습된 정책이 행동 정책이 선택한 동작의 지원(support) 내에서만 동작을 선택하도록 강제하는 방식
해당되는 알고리즘: CQL (Conservative Q-Learning), BCQ (Batch-Constrained Q-learning)
- 동작 방식: 지원 제약은 행동 정책이 실제로 수행한 동작들만을 기반으로 학습된 정책이 동작을 선택하게 한다. 이는 행동 정책이 실제로 수행했던 동작의 구체적인 집합 내에서만 학습된 정책이 동작을 선택하도록 제한하는 방식이다.
- 특징
- 정책이 행동 정책에서 실제로 수행된 동작들만 선택하도록 제약한다.
- 구체적인 동작 집합에 한정되기 때문에 탐색 범위가 좁아진다.
- 한계: 지원 제약은 행동 정책이 비최적일 때, 학습된 정책이 더 나은 동작을 선택할 수 없도록 제한할 수 있다. 주어진 상태에서 더 나은 동작이 존재하더라도, 데이터셋에 없으면 선택할 수 없다.
3. 데이터셋 제약(Dataset Constraint)
학습된 정책이 특정 상태에서 가장 가까운 상태-동작 쌍을 찾아 그 동작을 제약하는 방식
해당되는 알고리즘: RDC (Policy Regularization with Dataset Constraint), TD3+BC (Twin Delayed Deep Deterministic Policy Gradient + Behavior Cloning)
- 동작 방식: 데이터셋 제약은 학습된 정책이 주어진 상태에서 가장 가까운 상태-동작 이웃(nearest neighbor)을 찾아서, 그 이웃의 동작을 선택하도록 유도한다. 이는 주어진 상태에 없는 동작도 선택할 수 있도록 하여 더 유연하게 행동을 결정하게 만든다.
- 특징
- 정책이 주어진 상태에서 가장 가까운 상태-동작 샘플을 찾아서 학습되므로, 행동 정책의 비최적 동작에 국한되지 않는다.
- 데이터셋 전체에서 동작을 선택할 수 있는 유연성을 제공하면서도, 여전히 충분한 보수성을 유지한다.
- 한계: 여전히 데이터셋 내에서 학습하기 때문에, 완전히 새로운 동작에 대한 탐색 능력이 제한될 수 있다. 하지만, 기존 제약 방식보다 더 넓은 탐색 범위를 제공한다.
728x90
반응형
LIST