'policy-based' 태그의 글 목록

[RL] Actor-Critic 알고리즘 간단하게 개념 정리

2024.08.05·

ML & DL/RL

혁펜하임님의 "혁펜하임의 “트이는” 강화 학습" 을 바탕으로 정리한 글입니다. 강화학습은 에이전트가 환경과 상호 작용하며 보상을 최대화하는 방법을 학습하는 과정이다.Actor-Critic 알고리즘은 이러한 강화학습 기법 중 하나로, Policy 기반의 접근법을 활용하여 에이전트의 행동을 결정하고, 그 결과를 평가하는 Critic 모듈을 통해 성능을 개선한다. REINFORCE 알고리즘의 variance 문제를 해결한 알고리즘이기도 하다. (REINFORCE 알고리즘의 내용은 아래에 정리해두었으니 참고 바랍니다!https://seoy00.tistory.com/40?category=1174101) [RL] 강화학습 REINFORCE 알고리즘혁펜하임님의 "혁펜하임의 “트이는” 강화 학습" 을 바탕으로 기록한..

[RL] 강화학습 REINFORCE 알고리즘

2024.07.31·

ML & DL/RL

혁펜하임님의 "혁펜하임의 “트이는” 강화 학습" 을 바탕으로 기록한 내용입니다. policy gradient을 식을 쭉 따라왔다면 REINFORCE 알고리즘을 이해하는 데에 큰 어려움은 없었다. Gt를 이용해서 update를 진행하기 때문에 한 에피소드가 끝나야 업데이트가 가능하다는 특징이 있고, 이에 따라 unbiased하지만 variance가 커서 수렴하는데 시간이 오래 걸린다는 것이 핵심이다. policy gradient에서 식 전개 과정이 궁금하시다면 아래 링크에서 정리된 내용을 확인하실 수 있습니다 :)강화학습 Policy Gradient 수식 전개 (tistory.com) 강화학습 Policy Gradient 수식 전개혁펜하임님의 "혁펜하임의 “트이는” 강화 학습" 을 바탕으로 기록한 내..

[RL] 강화학습 Policy Gradient 수식 전개

2024.07.31·

ML & DL/RL

혁펜하임님의 "혁펜하임의 “트이는” 강화 학습" 을 바탕으로 기록한 내용입니다. 아래 내용은 강의를 보고 policy gradient 내용을 수식으로 쭉 정리한 내용이다.

[RL] 강화학습 Policy-based 개념 간단 정리

2024.07.31·

ML & DL/RL

혁펜하임님의 "혁펜하임의 “트이는” 강화 학습" 을 바탕으로 정리한 글입니다. policy-based 이전에는 value-based 개념이 있었는데, value-based에서는 state value function을 최대화하는 policy를 찾자는 내용이었다. 이를 위해서는 greedy action하는 것이 좋은 정책을 찾는데 좋은 방법이었지만, 또 너무 greedy한 action을 찾다보면 sub optimal에 빠지기 쉽게 때문에 exploration을 적절하게 실행하는 ε-greedy 방법을 주로 사용하였다. (예: DQN) 하지만, value-based 방법에는 몇 가지 한계가 존재한다. 연속적인 공간에서의 어려움 value-based 방법은 상태 공간이 이산적일 때 효과적이다. 하지만 상태 ..

티스토리툴바