'ML & DL/RL' 카테고리의 글 목록 (2 Page)

[RL] 강화학습 Policy-based 개념 간단 정리

2024.07.31·

ML & DL/RL

혁펜하임님의 "혁펜하임의 “트이는” 강화 학습" 을 바탕으로 정리한 글입니다. policy-based 이전에는 value-based 개념이 있었는데, value-based에서는 state value function을 최대화하는 policy를 찾자는 내용이었다. 이를 위해서는 greedy action하는 것이 좋은 정책을 찾는데 좋은 방법이었지만, 또 너무 greedy한 action을 찾다보면 sub optimal에 빠지기 쉽게 때문에 exploration을 적절하게 실행하는 ε-greedy 방법을 주로 사용하였다. (예: DQN) 하지만, value-based 방법에는 몇 가지 한계가 존재한다. 연속적인 공간에서의 어려움 value-based 방법은 상태 공간이 이산적일 때 효과적이다. 하지만 상태 ..

[RL paper] Double DQN: Deep Reinforcement Learning with Double Q-learning 리뷰

2024.07.11·

ML & DL/RL

논문 링크: https://arxiv.org/abs/1509.06461 강화학습은 에이전트가 환경과 상호작용하며 최적의 행동을 학습하는 방식으로,DQN(Deep Q-Network)은 이를 딥러닝과 결합하여 고차원 상태 공간을 효과적으로 처리하고, experience replay와 target network를 통해 안정적인 학습을 가능하게 합니다. 그러나 DQN은 Q-value 추정 시 overestimate 문제와 학습 불안정하다는 등의 단점을 가지고 있습니다.이를 해결하기 위해 Double DQN이 제안되었으며, 두 개의 Q-network를 활용하여 overestimate 문제를 완화하고 더욱 안정적인 학습을 가능하게 합니다. 이번 포스팅에서는 Double DQN을 다루고 있는 'Deep Reinfor..

[RL] 간단하게 정리한 On-policy, Off-policy, Online, Offline Reinforcement Learning

2024.06.13·

ML & DL/RL

On-policy vs Off-policyOn-policy현재의 정책을 사용하여 행동을 선택하고, 그 행동을 통해 얻은 경험을 통해 동일한 정책을 업데이트한다. 즉, 에이전트는 학습하는 동안 항상 현재의 정책을 따른다.정책을 직접적으로 평가하고 업데이트한다.현재의 정책을 따르기 때문에 안정적이지만, 때때로 최적의 정책을 찾는 데 더 오래 걸릴 수 있다.ex) 로봇이 미로를 탐색하면서 장애물을 피하고 목표 지점에 도달하려고 한다. 로봇은 현재의 정책을 따라 움직이며, 만약 장애물에 부딪히거나 목표에 도달하면 그 경험을 바탕으로 정책을 업데이트한다. 로봇은 항상 현재의 정책을 따르기 때문에, 정책이 서서히 개선되면서 목표에 더 빠르게 도달하게 된다.대표 알고리즘: SARSA, A3C, PPOOff-polic..

[RL] 강화학습이란

2023.09.06·

ML & DL/RL

Reinforcement LearningLearn to make good sequence decisionsNo supervision- Learn from rewards (trial-and-error)강화학습은 독립적이지 않은, 연속된 결정은 내리며 그 결정에는 지도나 정답이 없다. 기본적인 idea는 다양한 결정을 직접 해보고 경험하면서 얻는 보상으로부터 피드백을 얻어 다시 결정을 내린다는 것이다. 보통 강화학습에 자전거 배우는 아이를 빗대어서 얘기하는 경우가 많다. 아이가 자전거를 배울 때 책을 읽어서 자전거를 타는 법을 다 익히고 타는 것이 아니라 무작정 타서 핸들도 돌려보고 페달도 굴리면서 자전거 타는 방법을 배우게 된다. 이 행위는 강화학습의 원리와 많이 닮아있다. 강화학습 예시1. Atari ..

티스토리툴바