혁펜하임님의 "혁펜하임의 “트이는” 강화 학습" 을 바탕으로 기록한 내용입니다.
policy gradient을 식을 쭉 따라왔다면 REINFORCE 알고리즘을 이해하는 데에 큰 어려움은 없었다.
Gt를 이용해서 update를 진행하기 때문에 한 에피소드가 끝나야 업데이트가 가능하다는 특징이 있고, 이에 따라 unbiased하지만 variance가 커서 수렴하는데 시간이 오래 걸린다는 것이 핵심이다.

policy gradient에서 식 전개 과정이 궁금하시다면 아래 링크에서 정리된 내용을 확인하실 수 있습니다 :)
강화학습 Policy Gradient 수식 전개 (tistory.com)
강화학습 Policy Gradient 수식 전개
혁펜하임님의 "혁펜하임의 “트이는” 강화 학습" 을 바탕으로 기록한 내용입니다. 아래 내용은 강의를 보고 policy gradient 내용을 수식으로 쭉 정리한 내용이다.
seoy00.tistory.com
'ML & DL > RL' 카테고리의 다른 글
[RL] Offline Reinforcement Learning: From Algorithms to Practical Challenges 강의 해석 (1) (0) | 2024.08.11 |
---|---|
[RL] Actor-Critic 알고리즘 간단하게 개념 정리 (0) | 2024.08.05 |
[RL] 강화학습 Policy Gradient 수식 전개 (0) | 2024.07.31 |
[RL] 강화학습 Policy-based 개념 간단 정리 (0) | 2024.07.31 |
[RL paper] Double DQN: Deep Reinforcement Learning with Double Q-learning 리뷰 (0) | 2024.07.11 |
혁펜하임님의 "혁펜하임의 “트이는” 강화 학습" 을 바탕으로 기록한 내용입니다.
policy gradient을 식을 쭉 따라왔다면 REINFORCE 알고리즘을 이해하는 데에 큰 어려움은 없었다.
Gt를 이용해서 update를 진행하기 때문에 한 에피소드가 끝나야 업데이트가 가능하다는 특징이 있고, 이에 따라 unbiased하지만 variance가 커서 수렴하는데 시간이 오래 걸린다는 것이 핵심이다.

policy gradient에서 식 전개 과정이 궁금하시다면 아래 링크에서 정리된 내용을 확인하실 수 있습니다 :)
강화학습 Policy Gradient 수식 전개 (tistory.com)
강화학습 Policy Gradient 수식 전개
혁펜하임님의 "혁펜하임의 “트이는” 강화 학습" 을 바탕으로 기록한 내용입니다. 아래 내용은 강의를 보고 policy gradient 내용을 수식으로 쭉 정리한 내용이다.
seoy00.tistory.com
'ML & DL > RL' 카테고리의 다른 글
[RL] Offline Reinforcement Learning: From Algorithms to Practical Challenges 강의 해석 (1) (0) | 2024.08.11 |
---|---|
[RL] Actor-Critic 알고리즘 간단하게 개념 정리 (0) | 2024.08.05 |
[RL] 강화학습 Policy Gradient 수식 전개 (0) | 2024.07.31 |
[RL] 강화학습 Policy-based 개념 간단 정리 (0) | 2024.07.31 |
[RL paper] Double DQN: Deep Reinforcement Learning with Double Q-learning 리뷰 (0) | 2024.07.11 |