@@ -27,10 +27,9 @@ Sutton의 3장은 꽤 책의 내용과 비슷하게 썼다.
27
27
28
28
# 4. Dynamic Programming
29
29
30
- ## 4.1 Bellman optimal equation revisited
31
-
32
- Bellman optimal equation도 다시 적어보자.
33
- optimal value $v_ \ast$, $q_ \ast$에 대한 optimal equation들은 다음과 같다.
30
+ 4장의 맨 처음에 나오는 것은 Bellman optimal equation이다.
31
+ 이 장에서는 DP를 이용해 optimal policy를 얻어내는 과정을 설명하고 있으니 optimal policy에 관한 다음 식이 중요한 것은 당연하다.
32
+ optimal value $v_ \ast$, $q_ \ast$에 대한 optimal equation들을 다시 써보면 다음과 같다.
34
33
35
34
$$
36
35
\begin{align*}
@@ -43,9 +42,9 @@ q_\ast(s,a)
43
42
\end{align*}
44
43
$$
45
44
46
- ## 4.2 Bellman equation revisited
45
+ ## 4.1 Bellman equation revisited
47
46
48
- 책의 4.1절에 가장 먼저 보이는 식은 $v $에 대한 Bellman equation
47
+ $v _ \pi $에 대한 Bellman equation은 이전 포스트에서 썼지만 다시 적어보자.
49
48
50
49
$$
51
50
\begin{align*}
@@ -57,7 +56,6 @@ v_\pi(s)
57
56
\end{align*}
58
57
$$
59
58
60
- 이다.
61
59
첫번째 줄과 두번째줄이 같다는 것, 그리고 그것이 네번째 줄과 같다는 것은 이전 포스트에서 증명했고, 그것을 Bellman equation이라고 했었다.
62
60
그러나 세번째 줄은 조금 뜬금없어보인다.
63
61
그래, 의미상으로는 당연히 그럴 것 같은데 왜 그런 지는 그렇게까지 쉽게 설명되지 않는다.
67
65
68
66
$$
69
67
\begin{align*}
70
- &\mathbb E \left[R_{t+1}+\gamma v_\pi(S_{t+1})|S_t=s\right]\\
68
+ &\mathbb E_\pi \left[R_{t+1}+\gamma v_\pi(S_{t+1})|S_t=s\right]\\
71
69
=&\sum_a\pi(a|s)\mathbb E\left[R_{t+1}+\gamma v_\pi(S_{t+1})|S_t=s,A_t=a\right]\\
72
- =&\sum_a\pi(a|s)\sum_{s',r}p(s',r|s,a)\mathbb E \left[R_{t+1}+\gamma v_\pi(S_{t+1})|S_t=s,A_t=a,R_{t+1}=r,S_{t+1}=s'\right]\\
73
- =&\sum_a\pi(a|s)\sum_{s',r}p(s',r|s,a)\mathbb E \left[r+\gamma v_\pi(S_{t+1})|S_{t+1}=s'\right]\\
74
- =&\sum_a\pi(a|s)\sum_{s',r}p(s',r|s,a)\mathbb E \left[r+\gamma v_\pi(s')\right]\\
70
+ =&\sum_a\pi(a|s)\sum_{s',r}p(s',r|s,a)\mathbb E_\pi \left[R_{t+1}+\gamma v_\pi(S_{t+1})|S_t=s,A_t=a,R_{t+1}=r,S_{t+1}=s'\right]\\
71
+ =&\sum_a\pi(a|s)\sum_{s',r}p(s',r|s,a)\mathbb E_\pi \left[r+\gamma v_\pi(S_{t+1})|S_{t+1}=s'\right]\\
72
+ =&\sum_a\pi(a|s)\sum_{s',r}p(s',r|s,a)\mathbb E_\pi \left[r+\gamma v_\pi(s')\right]\\
75
73
\end{align*}
76
74
$$
77
75
78
- ## 4.3 policy evaluation
76
+ ## 4.2 policy evaluation
79
77
80
78
책의 4.1절에서 다루는 것은, 주어진 정책 $\pi$에 대하여 이에 대한 가치함수 $v_ \pi$를 얻어내는 것이다.
81
- 즉 정책을 평가하는(policy evaluation, prediction problem) 것으로서 DP를 포함한 모든 강화학습에서의 주요한 두 과정 중 하나이다.
79
+ 즉 정책을 평가하는(policy evaluation, prediction problem) 것으로서 DP를 포함한 모든 강화학습에서의 중요한 두 과정 중 하나이다.
82
80
83
81
가치함수를 얻어내는 방식은 식 (4.4)을
84
82
89
87
와 같이 변형해 가치함수들의 수열 $v_0, v_1, v_2, \cdots$을 만들어나가는 것이다.
90
88
$v_0$가 임의의 함수(e.g. $v_0\equiv0$)이고 $v_ \pi$가 존재한다는 조건 하에 수열 $\\ {v_i\\ }$가 $v_ \pi$로 수렴하는 것이 알려져 있고, 이를 증명하려 한다.
91
89
92
- ## 4.4 Bellman operation
90
+ ## 4.3 Bellman operation
93
91
94
92
먼저 할 것은 식 (4.4) 버전의 Bellman equation을 Bellman operation으로 표현하는 것이다.
95
93
기본적으로 Carl Fredricksson의 자료를 따라갔다.
0 commit comments