You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
로 정의되는데 이때, $S_t\in\mathcal S$, $A_t\in\mathcal A$, $R_t\in\mathcal R$이고 state space $\mathcal S$, action space $\mathcal A$, reward space $\mathcal R\subset\mathbb R$이 모두 유한집합이다.
75
-
이 확률변수들의 나열을 trajectory라고도 한다.
75
+
이 확률변수들의 나열을 (조금 더 정확하게는 확률변수들의 값이 각각 지정된 상태를) trajectory라고도 한다.
76
76
77
77
Markov property란, state $S_t$와 reward $R_t$가 바로 이전의 state $S_{t-1}$와 action $A_{t-1}$에만 의존함을 뜻한다.
78
78
즉,
@@ -101,9 +101,7 @@ David Silver의 자료에서는 discount factor $\gamma$까지 합쳐 다섯 개
101
101
따라서 이 포스트에서는 finite MDP를
102
102
$\mathscr D\left(\mathcal S, \mathcal A, p, \gamma\right)$와 같이 정의하려 한다.
이 증명을 따라서 적절히 증명하면 어쨌든 optimal policy의 존재성에 대해 말하고 넘어갈 수도 있을 거다.
463
459
하지만, 문제는 내 스스로가 잘와닿지 않는다는 점이다.
464
460
465
-
다른 곳에서는 ([Alireza Modirshanechi](https://medium.com/data-science/why-does-the-optimal-policy-exist-29f30fd51f8c)의 설명) Theorem 1을 통해 멋지게 증명하는 것이있는데, 여기서는 optimal policy의 증명을 바로 해내는 것이아니라, 한걸음 더 나아갈 수 있는 가능성을 이야기하고 있다.
461
+
다른 곳에서는 ([Alireza Modirshanechi](https://medium.com/data-science/why-does-the-optimal-policy-exist-29f30fd51f8c)의 설명) 정책이 한 걸음 더 나아갈 수 있음을 아주 멋지게 설명한 자료가 있는데 (Theorem 1) 이 정리를 통해 optimal policy의 존재성을 증명하고 있지는 않다.
462
+
optimal policy의 존재성은 다음 포스트에서 iterative한 방식으로 얻어내려고 한다.
463
+
직접 증명해낼 수 있는지 의문이 들기도 하고, 또 이 방식이 Alireza Modirshanechi가 택한 방식이기 때문에 그렇다.
466
464
467
-
하지만 어차피, optimal policy의 존재성을 지금 증명할 필요는 없다.
468
-
다음 포스트에서 iterative한 방식으로 해당 optimal policy를 얻어낼 수 있음을 증명하겠다.
0 commit comments