반응형
SMALL
[RL] 간단하게 정리한 On-policy, Off-policy, Online, Offline Reinforcement Learning
·
RL
On-policy vs Off-policyOn-policy현재의 정책을 사용하여 행동을 선택하고, 그 행동을 통해 얻은 경험을 통해 동일한 정책을 업데이트한다. 즉, 에이전트는 학습하는 동안 항상 현재의 정책을 따른다.정책을 직접적으로 평가하고 업데이트한다.현재의 정책을 따르기 때문에 안정적이지만, 때때로 최적의 정책을 찾는 데 더 오래 걸릴 수 있다.ex) 로봇이 미로를 탐색하면서 장애물을 피하고 목표 지점에 도달하려고 한다. 로봇은 현재의 정책을 따라 움직이며, 만약 장애물에 부딪히거나 목표에 도달하면 그 경험을 바탕으로 정책을 업데이트한다. 로봇은 항상 현재의 정책을 따르기 때문에, 정책이 서서히 개선되면서 목표에 더 빠르게 도달하게 된다.대표 알고리즘: SARSA, A3C, PPOOff-polic..
728x90
LIST
놀땐 놀고 할 땐 하는 어른이 •͈ᴗ•͈
'2024/06/13 글 목록