728x90
반응형
SMALL
[RL paper] Double DQN: Deep Reinforcement Learning with Double Q-learning 리뷰
·
ML & DL/RL
논문 링크: https://arxiv.org/abs/1509.06461 강화학습은 에이전트가 환경과 상호작용하며 최적의 행동을 학습하는 방식으로,DQN(Deep Q-Network)은 이를 딥러닝과 결합하여 고차원 상태 공간을 효과적으로 처리하고, experience replay와 target network를 통해 안정적인 학습을 가능하게 합니다. 그러나 DQN은 Q-value 추정 시 overestimate 문제와 학습 불안정하다는 등의 단점을 가지고 있습니다.이를 해결하기 위해 Double DQN이 제안되었으며, 두 개의 Q-network를 활용하여 overestimate 문제를 완화하고 더욱 안정적인 학습을 가능하게 합니다. 이번 포스팅에서는 Double DQN을 다루고 있는 'Deep Reinfor..
하나하나 쉽게 설명하는 StyleGAN 논문 리뷰
·
ML & DL/GAN
오늘은 StyleGAN이 등장한 논문"A Style-Based Generator Architecture for Generative Adversarial Networks"을 리뷰해보려고 합니다.  이 글은 나동빈님의 https://www.youtube.com/watch?v=HXgfw3Z5zRo 리뷰 영상을 참고하여 작성하였습니다. StyleGAN은 이미지 생성 네트워크 중에서 뛰어난 성능을 보이는 아키텍처를 제안합니다.  우선 StyleGAN을 등장시킨 Style-Based Generator Architecture for Generative Adversarial Networks의 주요 contribution은 다음과 같습니다. PGGAN을 기반으로 style transfer 분야의 아이디어를 활용해 고성능..
[RL] 간단하게 정리한 On-policy, Off-policy, Online, Offline Reinforcement Learning
·
ML & DL/RL
On-policy vs Off-policyOn-policy현재의 정책을 사용하여 행동을 선택하고, 그 행동을 통해 얻은 경험을 통해 동일한 정책을 업데이트한다. 즉, 에이전트는 학습하는 동안 항상 현재의 정책을 따른다.정책을 직접적으로 평가하고 업데이트한다.현재의 정책을 따르기 때문에 안정적이지만, 때때로 최적의 정책을 찾는 데 더 오래 걸릴 수 있다.ex) 로봇이 미로를 탐색하면서 장애물을 피하고 목표 지점에 도달하려고 한다. 로봇은 현재의 정책을 따라 움직이며, 만약 장애물에 부딪히거나 목표에 도달하면 그 경험을 바탕으로 정책을 업데이트한다. 로봇은 항상 현재의 정책을 따르기 때문에, 정책이 서서히 개선되면서 목표에 더 빠르게 도달하게 된다.대표 알고리즘: SARSA, A3C, PPOOff-polic..
쉽게 설명하는 CycleGAN: Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks 논문 리뷰
·
ML & DL/GAN
만약 내가 찍은 일상사진에 고흐 혹은 피카소의 작품 스타일을 적용하고 싶다면 어떻게 해야 할까? 인공지능의 가장 기본적인 내용으로 생각해 보자면 일반적인 사진과 미술 작품 스타일의 그림 여러 쌍을 supervised learning으로 학습시킬 수 있을 것이다.  하지만, 생각해 보면 사진과 미술 작품이 쌍으로 존재하는 데이터셋을 찾기란 쉽지 않다. 사실 거의 없다고 봐도 무방하다. 그렇다면 어떤 방식을 이용해서 유명한 화가의 스타일을 내 사진에 적용할 수 있을까? CycleGAN을 이용하면 가능하다.  CycleGAN을 이용하면 다음 그림과 같이 unpaired 된 도메인 간 style transfer가 가능하다.   CycleGAN은 'Unpaired Image-to-Image Translation ..
[RL] 강화학습이란
·
ML & DL/RL
Reinforcement LearningLearn to make good sequence decisionsNo supervision- Learn from rewards (trial-and-error)강화학습은 독립적이지 않은, 연속된 결정은 내리며 그 결정에는 지도나 정답이 없다. 기본적인 idea는 다양한 결정을 직접 해보고 경험하면서 얻는 보상으로부터 피드백을 얻어 다시 결정을 내린다는 것이다. 보통 강화학습에 자전거 배우는 아이를 빗대어서 얘기하는 경우가 많다. 아이가 자전거를 배울 때 책을 읽어서 자전거를 타는 법을 다 익히고 타는 것이 아니라 무작정 타서 핸들도 돌려보고 페달도 굴리면서 자전거 타는 방법을 배우게 된다.  이 행위는 강화학습의 원리와 많이 닮아있다. 강화학습 예시1. Atari ..
conda 가상환경에서 jupyter notebook 실행하기(초간단)
·
ML & DL
anaconda에서 주피터 노트북을 실행하려면1) anaconda prompt에 접속해서 jupyter notebook을 입력하거나2) 윈도우 탭에서 바로 접속이 가능하다.  하지만 가상환경에서 jupyter notebook을 실행하려면 아래 포스팅처럼 conda에서 가상환경을 생성한 후에 jupyter notebook을 따로 설치하고 가상환경에 커널을 연결시켜줘야 한다.1. 가상환경 생성 및 접속하기https://seoy00.tistory.com/8 conda에서 가상환경 생성하기(초간단)conda 가상환경 생성 conda에서 가상환경을 생성하고 싶을 경우, 아나콘다 터미널을 열어 아래 명령어를 입력해 실행한다. conda create -n python= 가상환경 목록 확인 conda env list ..
conda에서 가상환경 생성하기(초간단)
·
ML & DL
conda 가상환경 생성conda에서 가상환경을 생성하고 싶을 경우, 아나콘다 터미널을 열어 아래 명령어를 입력해 실행한다.conda create -n python=가상환경 목록 확인conda env list가상환경 활성화만든 가상환경에서 작업하고 싶은 경우 activate 명령어로 가상환경을 활성화할 수 있다.conda activate 성공적으로 활성화되었을 경우 (base)표시가 (활성화한 가상환경명) 으로 변경된 것을 확인할 수 있다.가상환경 비활성화비활성화는 deactivate 명령어을 사용해서 할 수 있다.conda deactivatedeactivate가상환경 제거가상 환경을 제거하고 싶으면 아나콘다 터미널 (base)환경에서 다음을 입력한 후 실행하면 된다.conda remove -n --..
728x90
반응형
LIST
성장중 •͈ᴗ•͈