@@ -43,14 +43,14 @@ Sutton은 컴퓨터공학자라고 한다.
43
43
44
44
$$ \Pi=\left\{\pi(\cdot|\cdot):\mathcal S\times\mathcal A\to[0,1]\,\vert\,\sum_{a\in\mathcal A}\pi(a|s)=1\right\} $$
45
45
46
- $\Pi$에 partial order $\ge $를 다음과 같이 정의해 partially ordered set $\left(\Pi,\ge \right)$를 생각할 수 있다.
47
- 두 policy $\pi, \pi'\in\Pi$에 대하여 $\pi\ge \pi'$인 것의 정의는 모든 $s\in\mathcal S$에 대하여
46
+ $\Pi$에 partial order $\le $를 다음과 같이 정의해 partially ordered set $\left(\Pi,\le \right)$를 생각할 수 있다.
47
+ 두 policy $\pi, \pi'\in\Pi$에 대하여 $\pi\le \pi'$인 것의 정의는 모든 $s\in\mathcal S$에 대하여
48
48
49
- $$ v_\pi(s)\ge v_{\pi'}(s) $$
49
+ $$ v_\pi(s)\le v_{\pi'}(s) $$
50
50
51
51
인 것이다.
52
- $\left(\Pi,\ge \right)$는 분명히 totally ordered set은 아니다.
53
- 따라서 $\left(\Pi,\ge \right)$는 maximal의 존재는 보장되지만, maximum의 존재는 보장될 수 없다.
52
+ $\left(\Pi,\le \right)$는 분명히 totally ordered set은 아니다.
53
+ 따라서 $\left(\Pi,\le \right)$는 maximal의 존재는 보장되지만, maximum의 존재는 보장될 수 없다.
54
54
하지만 이 경우에는 maximum이 보장된다.
55
55
즉, 정책들의 최댓값, 혹은 최적 정책(optimal policy, $\pi^\ast$)의 존재가 보장된다.
56
56
다시 말해, $\pi\le\pi^\ast$인 $\pi^\ast\in\Pi$가 존재한다. (Claim 1)
@@ -75,13 +75,14 @@ $$q_\ast(s,a)=\sum_{r,s'}p(r,s'|s,a)(r+\gamma v_\ast(s'))$$
75
75
76
76
로 정의하자.
77
77
그러면 $q_ \ast$도 최대가 된다.
78
- 왜냐하면 모든 $\pi\in\Pi$에 대하여, $p(r,s'|s,a)\ge0$, $\gamma\ge0$으로부터
78
+ 즉, 모든 $s$, $a$에 대하여 $v(s,a)\le q_ \ast(s,a)$이다.
79
+ 왜냐하면 모든 $\pi\in\Pi$에 대하여, $p(r,s'|s,a)\le0$, $\gamma\ge0$으로부터
79
80
80
81
$$
81
82
\begin{align*}
82
83
q_\pi(s,a)
83
84
&=\sum_{r,s'}p(r,s'|s,a)(r+\gamma v_\pi(s'))\\
84
- &= \sum_{r,s'}p(r,s'|s,a)(r+\gamma v_\ast(s'))\\
85
+ &\le \sum_{r,s'}p(r,s'|s,a)(r+\gamma v_\ast(s'))\\
85
86
&=q_\ast(s,a)
86
87
\end{align*}
87
88
$$
121
122
\begin{align*}
122
123
v_\pi(s)
123
124
&=\sum_{a\in\mathcal A}\pi(a|s)q_\pi(s,a),\\
124
- &\le\sum_{a\in\mathcal A}\pi(a|s)q_\ast(s,a),\\
125
- &=v_\ast(s)
125
+ &\le\sum_{a\in\mathcal A}\pi^\ast(a|s)q_{\pi_\ast}(s,a),\\
126
+ &=q_\pi(s,a')\\
127
+ &=v_{\pi^\ast}(s)
126
128
\end{align*}
127
129
$$
128
130
0 commit comments