728x90
반응형

Reinforcement Learning

  • Learn to make good sequence decisions
  • No supervision- Learn from rewards (trial-and-error)

강화학습은 독립적이지 않은, 연속된 결정은 내리며 그 결정에는 지도나 정답이 없다. 기본적인 idea는 다양한 결정을 직접 해보고 경험하면서 얻는 보상으로부터 피드백을 얻어 다시 결정을 내린다는 것이다.

 

보통 강화학습에 자전거 배우는 아이를 빗대어서 얘기하는 경우가 많다. 아이가 자전거를 배울 때 책을 읽어서 자전거를 타는 법을 다 익히고 타는 것이 아니라 무작정 타서 핸들도 돌려보고 페달도 굴리면서 자전거 타는 방법을 배우게 된다.  이 행위는 강화학습의 원리와 많이 닮아있다.

 

강화학습 예시

1. Atari - DeepMind

https://www.ciokorea.com/news/24206

2. Robotics

Chelsea Finn, Sergey Levine, Pieter Abbeel

텀블러를 옮기는 로봇

https://www.nytimes.com/2015/05/22/science/robots-that-can-match-human-dexterity.html

 

3. AlphaGo

The game of Go - AlphaGo, DeepMind

https://www.hellodd.com/news/articleView.html?idxno=57243

Types of Machine Learning

  • Supervised Learning
  • Unsupervised Learning
  • Reinforcemet Learning

Reinforcement Learning: The Idea

  • agent가 구체적으로 어떻게 달성하는지 알려주지 않고 reward와 punishmet에를 통해 프로그래밍하는 방법

RL과 다른 ML의 차별점

  • supervisor가 없고 reward만 있음. 명확한 지도가 없고 간접적으로 알려준다는 의미
  • 보상이 즉각적이지 않을 수 있음 = 복잡한 문제
  • sequential, non i.i.d data(identical independent distribution)
  • 앞 결정이 뒷 결정에 영향을 줌. 따라서, 단순하게 목표 잡기가 쉽지 않고 고려사항이 많음
728x90
반응형
LIST
성장중 •͈ᴗ•͈