728x90
반응형
SMALL
[오류 해결] ImportError: DLL load failed while importing cymj: The specified module could not be found
·
Error
발생한 오류Python 패키지 cymj를 로드하려 할 때 발생하는 문제로, 강화학습 훈련 시 MuJoCo 환경을 사용하려고 할 때 발생하였다. ImportError: DLL load failed while importing cymj: The specified module could not be found 해결 방법다음 명령문을 mujoco import 하는 부분 앞에 작성 해주면 된다!본인은 mujoco210 을 사용하였기 때문에 다음 명령문을 사용하였지만, 사용하는 mujoco 버전과 경로에 맞게 설정해 주면 된다. os.add_dll_directory("....... //.mujoco//mujoco210//bin")  Referencehttps://github.com/openai/mujoco-py/i..
[RL paper] Deep reinforcement learning in transportation research: A review
·
ML & DL/RL
본 논문에서는 transportation에 관련한 DRL 적용 리뷰를 다룬다.transportation 분야를 총 7가지로 나누는데 이는 다음과 같다.1) autonomous driving2) energy efficient driving3) adaptive traffic signal control4) other types of traffic control5) vehicle routing optimization6) rail transportation7) maritime transportation 본인은 hybrid ship의 에너지 절감에 관심이 많기 때문에 2번과 7번 부분을 정리하였다.Highlights빠른 발전과 검토 부족을 감안하여 교통 분야의 DRL 연구를 검토확인된 7가지 영역에서 교통 분야에 ..
[RL] 강화학습 REINFORCE 알고리즘
·
ML & DL/RL
혁펜하임님의 "혁펜하임의 “트이는” 강화 학습" 을 바탕으로 기록한 내용입니다.  policy gradient을 식을 쭉 따라왔다면 REINFORCE 알고리즘을 이해하는 데에 큰 어려움은 없었다.  Gt를 이용해서 update를 진행하기 때문에 한 에피소드가 끝나야 업데이트가 가능하다는 특징이 있고, 이에 따라 unbiased하지만 variance가 커서 수렴하는데 시간이 오래 걸린다는 것이 핵심이다.  policy gradient에서 식 전개 과정이 궁금하시다면 아래 링크에서 정리된 내용을 확인하실 수 있습니다 :)강화학습 Policy Gradient 수식 전개 (tistory.com) 강화학습 Policy Gradient 수식 전개혁펜하임님의 "혁펜하임의 “트이는” 강화 학습" 을 바탕으로 기록한 내..
[RL] 강화학습 Policy-based 개념 간단 정리
·
ML & DL/RL
혁펜하임님의 "혁펜하임의 “트이는” 강화 학습" 을 바탕으로 정리한 글입니다.  policy-based 이전에는 value-based 개념이 있었는데, value-based에서는 state value function을 최대화하는 policy를 찾자는 내용이었다.  이를 위해서는 greedy action하는 것이 좋은 정책을 찾는데 좋은 방법이었지만, 또 너무 greedy한 action을 찾다보면 sub optimal에 빠지기 쉽게 때문에 exploration을 적절하게 실행하는 ε-greedy 방법을 주로 사용하였다. (예: DQN) 하지만, value-based 방법에는 몇 가지 한계가 존재한다. 연속적인 공간에서의 어려움 value-based 방법은 상태 공간이 이산적일 때 효과적이다. 하지만 상태 ..
[RL paper] Double DQN: Deep Reinforcement Learning with Double Q-learning 리뷰
·
ML & DL/RL
논문 링크: https://arxiv.org/abs/1509.06461 강화학습은 에이전트가 환경과 상호작용하며 최적의 행동을 학습하는 방식으로,DQN(Deep Q-Network)은 이를 딥러닝과 결합하여 고차원 상태 공간을 효과적으로 처리하고, experience replay와 target network를 통해 안정적인 학습을 가능하게 합니다. 그러나 DQN은 Q-value 추정 시 overestimate 문제와 학습 불안정하다는 등의 단점을 가지고 있습니다.이를 해결하기 위해 Double DQN이 제안되었으며, 두 개의 Q-network를 활용하여 overestimate 문제를 완화하고 더욱 안정적인 학습을 가능하게 합니다. 이번 포스팅에서는 Double DQN을 다루고 있는 'Deep Reinfor..
[RL] 강화학습이란
·
ML & DL/RL
Reinforcement LearningLearn to make good sequence decisionsNo supervision- Learn from rewards (trial-and-error)강화학습은 독립적이지 않은, 연속된 결정은 내리며 그 결정에는 지도나 정답이 없다. 기본적인 idea는 다양한 결정을 직접 해보고 경험하면서 얻는 보상으로부터 피드백을 얻어 다시 결정을 내린다는 것이다. 보통 강화학습에 자전거 배우는 아이를 빗대어서 얘기하는 경우가 많다. 아이가 자전거를 배울 때 책을 읽어서 자전거를 타는 법을 다 익히고 타는 것이 아니라 무작정 타서 핸들도 돌려보고 페달도 굴리면서 자전거 타는 방법을 배우게 된다.  이 행위는 강화학습의 원리와 많이 닮아있다. 강화학습 예시1. Atari ..
728x90
반응형
LIST
성장중 •͈ᴗ•͈
'강화학습' 태그의 글 목록