728x90
반응형
SMALL
[RL paper] Deep reinforcement learning in transportation research: A review
·
ML & DL/RL
본 논문에서는 transportation에 관련한 DRL 적용 리뷰를 다룬다.transportation 분야를 총 7가지로 나누는데 이는 다음과 같다.1) autonomous driving2) energy efficient driving3) adaptive traffic signal control4) other types of traffic control5) vehicle routing optimization6) rail transportation7) maritime transportation 본인은 hybrid ship의 에너지 절감에 관심이 많기 때문에 2번과 7번 부분을 정리하였다.Highlights빠른 발전과 검토 부족을 감안하여 교통 분야의 DRL 연구를 검토확인된 7가지 영역에서 교통 분야에 ..
[RL] Offline Reinforcement Learning: From Algorithms to Practical Challenges 강의 해석 (2)
·
ML & DL/RL
Offline Reinforcement Learning: From Algorithms to Practical Challenges 튜토리얼 강의이다. 이 강의는 2020년 survey 논문과 함께 나온 튜토리얼로, offline RL에 대한 전반적인 내용을 다루고 있어 도움이 많이 될 것이라 생각하고 들어보았다.  영어 강의라 다른 분들이 혹시 이 강의를 보실 때 좀 더 편하게 공부를 했으면 하는 마음에 튜토리얼 해석본을 작성하였다. 강의가 두 부분으로 이루어져있는데 다음은 강의의 두번 째 부분이다.   (강의를 들으면서 작성하였으나 오역 혹은 어색한 문장이 있을 수 있으니 참고 바랍니다.)정리한 내용도 곧 포스팅할 예정이다. 논문 링크튜토리얼 강의 링크(강의 해석 (1)을 확인하고 싶으시다면 다음 링크를..
[RL] Offline Reinforcement Learning: From Algorithms to Practical Challenges 강의 해석 (1)
·
ML & DL/RL
Offline Reinforcement Learning: From Algorithms to Practical Challenges 튜토리얼 강의이다. 이 강의는 2020년 survey 논문과 함께 나온 튜토리얼로, offline RL에 대한 전반적인 내용을 다루고 있어 도움이 많이 될 것이라 생각하고 들어보았다.  영어 강의라 다른 분들이 혹시 이 강의를 보실 때 좀 더 편하게 공부를 했으면 하는 마음에 튜토리얼 해석본을 작성하였다. 강의가 두 부분으로 이루어져있는데 다음은 강의의 첫 부분이다.  (강의를 들으면서 작성하였으나 오역 혹은 어색한 문장이 있을 수 있으니 참고 바랍니다.) 정리한 내용도 곧 포스팅할 예정이다. 논문 링크튜토리얼 강의 링크(강의 해석 (2)를 확인하고 싶으시다면  다음 링크를 참..
[RL] Actor-Critic 알고리즘 간단하게 개념 정리
·
ML & DL/RL
혁펜하임님의 "혁펜하임의 “트이는” 강화 학습" 을 바탕으로 정리한 글입니다. 강화학습은 에이전트가 환경과 상호 작용하며 보상을 최대화하는 방법을 학습하는 과정이다.Actor-Critic 알고리즘은 이러한 강화학습 기법 중 하나로, Policy 기반의 접근법을 활용하여 에이전트의 행동을 결정하고, 그 결과를 평가하는 Critic 모듈을 통해 성능을 개선한다. REINFORCE 알고리즘의 variance 문제를 해결한 알고리즘이기도 하다.  (REINFORCE 알고리즘의 내용은 아래에 정리해두었으니 참고 바랍니다!https://seoy00.tistory.com/40?category=1174101) [RL] 강화학습 REINFORCE 알고리즘혁펜하임님의 "혁펜하임의 “트이는” 강화 학습" 을 바탕으로 기록한..
[RL] 강화학습 REINFORCE 알고리즘
·
ML & DL/RL
혁펜하임님의 "혁펜하임의 “트이는” 강화 학습" 을 바탕으로 기록한 내용입니다.  policy gradient을 식을 쭉 따라왔다면 REINFORCE 알고리즘을 이해하는 데에 큰 어려움은 없었다.  Gt를 이용해서 update를 진행하기 때문에 한 에피소드가 끝나야 업데이트가 가능하다는 특징이 있고, 이에 따라 unbiased하지만 variance가 커서 수렴하는데 시간이 오래 걸린다는 것이 핵심이다.  policy gradient에서 식 전개 과정이 궁금하시다면 아래 링크에서 정리된 내용을 확인하실 수 있습니다 :)강화학습 Policy Gradient 수식 전개 (tistory.com) 강화학습 Policy Gradient 수식 전개혁펜하임님의 "혁펜하임의 “트이는” 강화 학습" 을 바탕으로 기록한 내..
[RL] 강화학습 Policy Gradient 수식 전개
·
ML & DL/RL
혁펜하임님의 "혁펜하임의 “트이는” 강화 학습" 을 바탕으로 기록한 내용입니다.  아래 내용은 강의를 보고 policy gradient 내용을 수식으로 쭉 정리한 내용이다.
[RL] 강화학습 Policy-based 개념 간단 정리
·
ML & DL/RL
혁펜하임님의 "혁펜하임의 “트이는” 강화 학습" 을 바탕으로 정리한 글입니다.  policy-based 이전에는 value-based 개념이 있었는데, value-based에서는 state value function을 최대화하는 policy를 찾자는 내용이었다.  이를 위해서는 greedy action하는 것이 좋은 정책을 찾는데 좋은 방법이었지만, 또 너무 greedy한 action을 찾다보면 sub optimal에 빠지기 쉽게 때문에 exploration을 적절하게 실행하는 ε-greedy 방법을 주로 사용하였다. (예: DQN) 하지만, value-based 방법에는 몇 가지 한계가 존재한다. 연속적인 공간에서의 어려움 value-based 방법은 상태 공간이 이산적일 때 효과적이다. 하지만 상태 ..
[RL paper] Double DQN: Deep Reinforcement Learning with Double Q-learning 리뷰
·
ML & DL/RL
논문 링크: https://arxiv.org/abs/1509.06461 강화학습은 에이전트가 환경과 상호작용하며 최적의 행동을 학습하는 방식으로,DQN(Deep Q-Network)은 이를 딥러닝과 결합하여 고차원 상태 공간을 효과적으로 처리하고, experience replay와 target network를 통해 안정적인 학습을 가능하게 합니다. 그러나 DQN은 Q-value 추정 시 overestimate 문제와 학습 불안정하다는 등의 단점을 가지고 있습니다.이를 해결하기 위해 Double DQN이 제안되었으며, 두 개의 Q-network를 활용하여 overestimate 문제를 완화하고 더욱 안정적인 학습을 가능하게 합니다. 이번 포스팅에서는 Double DQN을 다루고 있는 'Deep Reinfor..
728x90
반응형
LIST
성장중 •͈ᴗ•͈
'RL' 태그의 글 목록