728x90
반응형
SMALL
StyleGAN2-ADA 학습 튜토리얼 (AHFQ-v2 Dataset 사용)
·
ML & DL/GAN
AHFQ-v2 Dataset을 통해서 StyleGAN2-ADA를 학습하는 방법을 정리하려고 한다. 이 글을 참고해서 dataset만 바꿔주면 custom dataset으로도 충분히 학습을 진행할 수 있을 것이다.  Dataset 준비나는 동물 얼굴 데이터셋인 ahfq-v2 데이터셋을 사용하였다. 다음 링크에 접속하면 stargan-v2/README.md at master · clovaai/stargan-v2 (github.com) stargan-v2/README.md at master · clovaai/stargan-v2StarGAN v2 - Official PyTorch Implementation (CVPR 2020) - clovaai/stargan-v2github.com 다음과 같이 dataset 설..
loss 값이 nan이 되는 이유 및 오류 해결(feat. StyleGAN)
·
ML & DL/GAN
StyleGAN을 학습하던 중 다음 오류가 발생하는 것을 확인하였다. Epoch 1/250, Iter 400, Gen Loss: nan, Disc Loss: nan학습과 함께 출력하는 사진도 오류 없이 나오고 있어서 오류가 발생하지 않고 있다고 생각했는데 loss값이 nan이 나오고 있었던 것이다. 한 번도 이랬던 적이 없어서 찾아보았는데 이유가 여러 가지가 있었다. 오류 원인(추정)학습률(Learning Rate)이 너무 큼: 학습률이 너무 큰 경우, 모델의 가중치가 너무 빠르게 업데이트되어 숫자가 발산하거나, 손실 함수 계산 중에 NaN 값이 나올 수 있음입력 데이터에 NaN 또는 Inf 값이 포함됨: 학습 데이터에 잘못된 값(NaN, Inf)이 포함되어 있을 경우, 손실 함수 계산 중에 문제가 발생..
[RL] Model-based offlineRL 8가지 알고리즘 개념 정리(BCQ, CQL, PLAS, BCQ, EDAC, MCQ, TD3BC, PRDC)
·
ML & DL/RL
(2018) [BCQ] Off-Policy Deep Reinforcement Learning without Explorationhttps://arxiv.org/abs/1812.02900Scott Fujimoto, David Meger, Doina PrecupAbstract많은 강화학습 응용은 고정된 데이터 배치에서 학습해야 하며, 추가적인 데이터 수집이 불가능함.표준 Off-policy 알고리즘(DQN, DDPG)은 현재 정책과 상관된 데이터가 없으면 학습할 수 없으며, 고정된 배치 설정에서 효과적이지 않음.Batch-Constrained Reinforcement Learning을 제안하며, 에이전트가 행동 공간을 제한하여 주어진 데이터와 On-policy에 가깝게 행동하도록 유도함.BCQ 알고리즘은 연..
[RL] offline RL constraint 유형 정리
·
ML & DL/RL
💡 offline RL constraint 방식 구분 1. 분포 제약(Distribution Constraint)학습된 정책이 행동 정책의 분포와 유사한 분포에서 동작을 선택하도록 강제하는 방식해당되는 알고리즘: BEAR (Batch-Constrained Q-learning), BRAC (Behavior Regularized Actor Critic)동작 방식: 분포 제약은 행동 정책(behavior policy)이 생성한 상태-동작 분포를 기반으로 학습된 정책이 유사한 상태-동작 쌍을 선택하도록 한다. 학습된 정책이 기존 행동 정책의 동작 패턴을 유지하게 함으로써, 데이터셋의 분포를 벗어나지 않도록 제약한다.특징정책이 데이터셋 분포 내에서만 동작을 선택하도록 강제한다.정책이 확률적으로 행동 정책과 비슷..
[RL paper] Deep reinforcement learning in transportation research: A review
·
ML & DL/RL
본 논문에서는 transportation에 관련한 DRL 적용 리뷰를 다룬다.transportation 분야를 총 7가지로 나누는데 이는 다음과 같다.1) autonomous driving2) energy efficient driving3) adaptive traffic signal control4) other types of traffic control5) vehicle routing optimization6) rail transportation7) maritime transportation 본인은 hybrid ship의 에너지 절감에 관심이 많기 때문에 2번과 7번 부분을 정리하였다.Highlights빠른 발전과 검토 부족을 감안하여 교통 분야의 DRL 연구를 검토확인된 7가지 영역에서 교통 분야에 ..
해양 데이터셋 플랫폼 정리
·
ML & DL
해양 데이터가 필요한 경우가 있었는데 나중에 찾아보기 편하기 위해 해양 데이터셋 플랫폼을 정리하고자 한다. 추천 순으로 작성한 것은 아니며, 해양 데이터셋만을 다루는 플랫폼이 아니더라도 포함하고 있는 플랫폼의 경우 모두 나열하였다. 예시에는 선박 운항 데이터를 중심으로 작성해놓았다.  1. 공공 데이터 포털예: 여객선 운항 정보, 선박 운항 정보, AIS 데이터https://www.data.go.kr/index.do 공공데이터 포털국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Datasewww.data.go.kr 2. 연안 빅데이터 플랫폼예: 선박 운항 데이터(VDR,T..
[RL] Offline Reinforcement Learning: From Algorithms to Practical Challenges 강의 해석 (2)
·
ML & DL/RL
Offline Reinforcement Learning: From Algorithms to Practical Challenges 튜토리얼 강의이다. 이 강의는 2020년 survey 논문과 함께 나온 튜토리얼로, offline RL에 대한 전반적인 내용을 다루고 있어 도움이 많이 될 것이라 생각하고 들어보았다.  영어 강의라 다른 분들이 혹시 이 강의를 보실 때 좀 더 편하게 공부를 했으면 하는 마음에 튜토리얼 해석본을 작성하였다. 강의가 두 부분으로 이루어져있는데 다음은 강의의 두번 째 부분이다.   (강의를 들으면서 작성하였으나 오역 혹은 어색한 문장이 있을 수 있으니 참고 바랍니다.)정리한 내용도 곧 포스팅할 예정이다. 논문 링크튜토리얼 강의 링크(강의 해석 (1)을 확인하고 싶으시다면 다음 링크를..
[RL] Offline Reinforcement Learning: From Algorithms to Practical Challenges 강의 해석 (1)
·
ML & DL/RL
Offline Reinforcement Learning: From Algorithms to Practical Challenges 튜토리얼 강의이다. 이 강의는 2020년 survey 논문과 함께 나온 튜토리얼로, offline RL에 대한 전반적인 내용을 다루고 있어 도움이 많이 될 것이라 생각하고 들어보았다.  영어 강의라 다른 분들이 혹시 이 강의를 보실 때 좀 더 편하게 공부를 했으면 하는 마음에 튜토리얼 해석본을 작성하였다. 강의가 두 부분으로 이루어져있는데 다음은 강의의 첫 부분이다.  (강의를 들으면서 작성하였으나 오역 혹은 어색한 문장이 있을 수 있으니 참고 바랍니다.) 정리한 내용도 곧 포스팅할 예정이다. 논문 링크튜토리얼 강의 링크(강의 해석 (2)를 확인하고 싶으시다면  다음 링크를 참..
728x90
반응형
LIST
성장중 •͈ᴗ•͈
'ML & DL' 카테고리의 글 목록