반응형
SMALL
[RL] Model-based offlineRL 8가지 알고리즘 개념 정리(BCQ, CQL, PLAS, BCQ, EDAC, MCQ, TD3BC, PRDC)
·
RL
(2018) [BCQ] Off-Policy Deep Reinforcement Learning without Explorationhttps://arxiv.org/abs/1812.02900Scott Fujimoto, David Meger, Doina PrecupAbstract많은 강화학습 응용은 고정된 데이터 배치에서 학습해야 하며, 추가적인 데이터 수집이 불가능함.표준 Off-policy 알고리즘(DQN, DDPG)은 현재 정책과 상관된 데이터가 없으면 학습할 수 없으며, 고정된 배치 설정에서 효과적이지 않음.Batch-Constrained Reinforcement Learning을 제안하며, 에이전트가 행동 공간을 제한하여 주어진 데이터와 On-policy에 가깝게 행동하도록 유도함.BCQ 알고리즘은 연..
[RL] offline RL constraint 유형 정리
·
RL
💡 offline RL constraint 방식 구분 1. 분포 제약(Distribution Constraint)학습된 정책이 행동 정책의 분포와 유사한 분포에서 동작을 선택하도록 강제하는 방식해당되는 알고리즘: BEAR (Batch-Constrained Q-learning), BRAC (Behavior Regularized Actor Critic)동작 방식: 분포 제약은 행동 정책(behavior policy)이 생성한 상태-동작 분포를 기반으로 학습된 정책이 유사한 상태-동작 쌍을 선택하도록 한다. 학습된 정책이 기존 행동 정책의 동작 패턴을 유지하게 함으로써, 데이터셋의 분포를 벗어나지 않도록 제약한다.특징정책이 데이터셋 분포 내에서만 동작을 선택하도록 강제한다.정책이 확률적으로 행동 정책과 비슷..
[RL paper] Deep reinforcement learning in transportation research: A review
·
RL
본 논문에서는 transportation에 관련한 DRL 적용 리뷰를 다룬다.transportation 분야를 총 7가지로 나누는데 이는 다음과 같다.1) autonomous driving2) energy efficient driving3) adaptive traffic signal control4) other types of traffic control5) vehicle routing optimization6) rail transportation7) maritime transportation 본인은 hybrid ship의 에너지 절감에 관심이 많기 때문에 2번과 7번 부분을 정리하였다.Highlights빠른 발전과 검토 부족을 감안하여 교통 분야의 DRL 연구를 검토확인된 7가지 영역에서 교통 분야에 ..
[RL] Offline Reinforcement Learning: From Algorithms to Practical Challenges 강의 해석 (2)
·
RL
Offline Reinforcement Learning: From Algorithms to Practical Challenges 튜토리얼 강의이다. 이 강의는 2020년 survey 논문과 함께 나온 튜토리얼로, offline RL에 대한 전반적인 내용을 다루고 있어 도움이 많이 될 것이라 생각하고 들어보았다.  영어 강의라 다른 분들이 혹시 이 강의를 보실 때 좀 더 편하게 공부를 했으면 하는 마음에 튜토리얼 해석본을 작성하였다. 강의가 두 부분으로 이루어져있는데 다음은 강의의 두번 째 부분이다.   (강의를 들으면서 작성하였으나 오역 혹은 어색한 문장이 있을 수 있으니 참고 바랍니다.)정리한 내용도 곧 포스팅할 예정이다. 논문 링크튜토리얼 강의 링크(강의 해석 (1)을 확인하고 싶으시다면 다음 링크를..
[RL] Offline Reinforcement Learning: From Algorithms to Practical Challenges 강의 해석 (1)
·
RL
Offline Reinforcement Learning: From Algorithms to Practical Challenges 튜토리얼 강의이다. 이 강의는 2020년 survey 논문과 함께 나온 튜토리얼로, offline RL에 대한 전반적인 내용을 다루고 있어 도움이 많이 될 것이라 생각하고 들어보았다.  영어 강의라 다른 분들이 혹시 이 강의를 보실 때 좀 더 편하게 공부를 했으면 하는 마음에 튜토리얼 해석본을 작성하였다. 강의가 두 부분으로 이루어져있는데 다음은 강의의 첫 부분이다.  (강의를 들으면서 작성하였으나 오역 혹은 어색한 문장이 있을 수 있으니 참고 바랍니다.) 정리한 내용도 곧 포스팅할 예정이다. 논문 링크튜토리얼 강의 링크(강의 해석 (2)를 확인하고 싶으시다면  다음 링크를 참..
[RL] Actor-Critic 알고리즘 간단하게 개념 정리
·
RL
혁펜하임님의 "혁펜하임의 “트이는” 강화 학습" 을 바탕으로 정리한 글입니다. 강화학습은 에이전트가 환경과 상호 작용하며 보상을 최대화하는 방법을 학습하는 과정이다.Actor-Critic 알고리즘은 이러한 강화학습 기법 중 하나로, Policy 기반의 접근법을 활용하여 에이전트의 행동을 결정하고, 그 결과를 평가하는 Critic 모듈을 통해 성능을 개선한다. REINFORCE 알고리즘의 variance 문제를 해결한 알고리즘이기도 하다.  (REINFORCE 알고리즘의 내용은 아래에 정리해두었으니 참고 바랍니다!https://seoy00.tistory.com/40?category=1174101) [RL] 강화학습 REINFORCE 알고리즘혁펜하임님의 "혁펜하임의 “트이는” 강화 학습" 을 바탕으로 기록한..
[RL] 강화학습 REINFORCE 알고리즘
·
RL
혁펜하임님의 "혁펜하임의 “트이는” 강화 학습" 을 바탕으로 기록한 내용입니다.  policy gradient을 식을 쭉 따라왔다면 REINFORCE 알고리즘을 이해하는 데에 큰 어려움은 없었다.  Gt를 이용해서 update를 진행하기 때문에 한 에피소드가 끝나야 업데이트가 가능하다는 특징이 있고, 이에 따라 unbiased하지만 variance가 커서 수렴하는데 시간이 오래 걸린다는 것이 핵심이다.  policy gradient에서 식 전개 과정이 궁금하시다면 아래 링크에서 정리된 내용을 확인하실 수 있습니다 :)강화학습 Policy Gradient 수식 전개 (tistory.com) 강화학습 Policy Gradient 수식 전개혁펜하임님의 "혁펜하임의 “트이는” 강화 학습" 을 바탕으로 기록한 내..
[RL] 강화학습 Policy Gradient 수식 전개
·
RL
혁펜하임님의 "혁펜하임의 “트이는” 강화 학습" 을 바탕으로 기록한 내용입니다.  아래 내용은 강의를 보고 policy gradient 내용을 수식으로 쭉 정리한 내용이다.
728x90
LIST
놀땐 놀고 할 땐 하는 어른이 •͈ᴗ•͈
'RL' 카테고리의 글 목록