성장중 •͈ᴗ•͈
[RL] 강화학습 Policy Gradient 수식 전개