728x90
반응형
SMALL
[RL] 강화학습 REINFORCE 알고리즘
·
ML & DL/RL
혁펜하임님의 "혁펜하임의 “트이는” 강화 학습" 을 바탕으로 기록한 내용입니다.  policy gradient을 식을 쭉 따라왔다면 REINFORCE 알고리즘을 이해하는 데에 큰 어려움은 없었다.  Gt를 이용해서 update를 진행하기 때문에 한 에피소드가 끝나야 업데이트가 가능하다는 특징이 있고, 이에 따라 unbiased하지만 variance가 커서 수렴하는데 시간이 오래 걸린다는 것이 핵심이다.  policy gradient에서 식 전개 과정이 궁금하시다면 아래 링크에서 정리된 내용을 확인하실 수 있습니다 :)강화학습 Policy Gradient 수식 전개 (tistory.com) 강화학습 Policy Gradient 수식 전개혁펜하임님의 "혁펜하임의 “트이는” 강화 학습" 을 바탕으로 기록한 내..
[RL] 강화학습 Policy Gradient 수식 전개
·
ML & DL/RL
혁펜하임님의 "혁펜하임의 “트이는” 강화 학습" 을 바탕으로 기록한 내용입니다.  아래 내용은 강의를 보고 policy gradient 내용을 수식으로 쭉 정리한 내용이다.
[RL] 강화학습 Policy-based 개념 간단 정리
·
ML & DL/RL
혁펜하임님의 "혁펜하임의 “트이는” 강화 학습" 을 바탕으로 정리한 글입니다.  policy-based 이전에는 value-based 개념이 있었는데, value-based에서는 state value function을 최대화하는 policy를 찾자는 내용이었다.  이를 위해서는 greedy action하는 것이 좋은 정책을 찾는데 좋은 방법이었지만, 또 너무 greedy한 action을 찾다보면 sub optimal에 빠지기 쉽게 때문에 exploration을 적절하게 실행하는 ε-greedy 방법을 주로 사용하였다. (예: DQN) 하지만, value-based 방법에는 몇 가지 한계가 존재한다. 연속적인 공간에서의 어려움 value-based 방법은 상태 공간이 이산적일 때 효과적이다. 하지만 상태 ..
CycleGAN 모델 파라미터 정리
·
ML & DL/GAN
어느 모델을 돌릴 때나 본인의 환경에 맞게 파라미터를 사용하는데 cyclegan도 마찬가지이다.보통은 유명한 모델일수록 model에 관련된 설명이 github에 잘 나와있기 때문에 cyclegan도 dataset 경로, 모델 돌릴 때의 tips, 파라미터 설명 등이 github에 아주 잘 올라와 있지만,cyclegan을 train/test 할 때 많이 사용하는 파라미터를 기록용으로 옮겨 적어두고자 한다.  각 옵션들은 base_options.py, train_options.py, test_options.py 에 나눠져 있다. base options--dataroot: 데이터셋 이미지 경로 지정. trainA, trainB, valA, valB 등의 하위 폴더가 있어야 함default 값: 없음 (requ..
아이폰에서 Window PC로 사진 옮기기(아이폰 Window 연결 오류 해결)
·
Settings
데이터셋을 구축할 일이 있어서 직접 사진을 찍은 후 아이폰에서 데스크탑으로 사진을 옮기려고 usb 케이블로 연결하였다. 휴대폰에서는 연결이 되어서 충전 표시도 잘 뜨고 사진 등 파일 보여주는 것을 허용할 것인가에 대한 알림이 뜨는데 데스크탑에는 아이폰 장치가 나타나지 않았다.  관련 해결 방법을 기록하고자 한다. 해결방법을 빠르게 보고 싶다면 '해결 방법' 부분을 바로 참고하길 바란다.  오류 상태처음 상태를 공유하자면 장치 관리자를 들어갔을 때 아래와 같이 Apple Mobile Device USB Driver는 뜨는데 휴대용 장치에는 'Apple iPhone'이 표시되지 않았다.  (미) 해결 방법우선,  아래 공식 홈페이지에 나온대로, 마이크로소프트 store에서 Apple 기기 앱을 설치하라고 해..
[오류 해결] AttributeError: 'Mean' object has no attribute 'reset_states'.
·
Error
발생한 오류atari 환경에서 강화학습 훈련을 시키려고 할 때 다음과 같은 오류가 발생하였다. AttributeError: 'Mean' object has no attribute 'reset_states'. reset_state 속성이 없다는 의미이다.   해결 방법특정 버전의 tensorflow에서 reset_state를 지원하지 않아서 생기는 문제였다.TF 2.4.1의 경우 m.reset_states(), TF 2.5.0에는 m.reset_state()를 사용해야 한다고 한다!  버전에 맞게 수정하면 잘 동작한다. reset_state()reset_states()  Referencehttps://github.com/tensorflow/tensorflow/issues/50359
[오류 해결] AttributeError: 'numpy.random._generator.Generator' object has no attribute 'randint' in ".../ray/rllib/env/wrappers/atari_wrappers.py
·
Error
발생한 오류강화학습을 학습하려고 할 때  다음과 같은 오류가 발생하였다. AttributeError: 'numpy.random._generator.Generator' object has no attribute 'randint' in ".../ray/rllib/env/wrappers/atari_wrappers.py  문서에 따르면 randint 함수가 향후 제거될 예정이며, 대신 rng.integers(low, [high, size, dtype])를 사용한다고 한다.    해결 방법venv\Lib\site-packages\gym\utils\seeding.py 에서 noops = self.unwrapped.np_random.randint(1, self.noop_max + 1) 부분을 찾아 아래와 같이 변경해..
[RL paper] Double DQN: Deep Reinforcement Learning with Double Q-learning 리뷰
·
ML & DL/RL
논문 링크: https://arxiv.org/abs/1509.06461 강화학습은 에이전트가 환경과 상호작용하며 최적의 행동을 학습하는 방식으로,DQN(Deep Q-Network)은 이를 딥러닝과 결합하여 고차원 상태 공간을 효과적으로 처리하고, experience replay와 target network를 통해 안정적인 학습을 가능하게 합니다. 그러나 DQN은 Q-value 추정 시 overestimate 문제와 학습 불안정하다는 등의 단점을 가지고 있습니다.이를 해결하기 위해 Double DQN이 제안되었으며, 두 개의 Q-network를 활용하여 overestimate 문제를 완화하고 더욱 안정적인 학습을 가능하게 합니다. 이번 포스팅에서는 Double DQN을 다루고 있는 'Deep Reinfor..
728x90
반응형
LIST
성장중 •͈ᴗ•͈