|
1 | 1 | ---
|
2 | 2 | layout: single
|
3 |
| -title: "Belllman optimal equation" |
| 3 | +title: "Bellman optimal equation" |
4 | 4 | categories: machine-learning
|
5 | 5 | tags: [reinforcement learing, Bellman optimal equation, partial order]
|
6 | 6 | use_math: true
|
@@ -53,33 +53,77 @@ $\left(\Pi,\ge\right)$는 분명히 totally ordered set은 아니다.
|
53 | 53 | 따라서 $\left(\Pi,\ge\right)$는 maximal의 존재는 보장되지만, maximum의 존재는 보장될 수 없다.
|
54 | 54 | 하지만 이 경우에는 maximum이 보장된다.
|
55 | 55 | 즉, 정책들의 최댓값, 혹은 최적 정책(optimal policy, $\pi^\ast$)의 존재가 보장된다.
|
56 |
| -다시 말해, 모든 $\pi\in\Pi$에 대하여 $\pi\le\pi^\ast$인 $\pi^\ast\in\Pi$가 존재한다. (Claim 1) |
| 56 | +다시 말해, $\pi\le\pi^\ast$인 $\pi^\ast\in\Pi$가 존재한다. (Claim 1) |
| 57 | + |
| 58 | +이것은 Sutton의 책에 언급만 되어있고 설명이나 증명이 있지는 않다. |
| 59 | +그래서 간략하게 다음과 같이 증명해 해보려 한다. |
57 | 60 |
|
58 | 61 | 먼저, 함수 $v_\ast$를
|
59 | 62 |
|
60 | 63 | $$v_\ast(s)=\max_{\pi\in\Pi}v_\pi(s)$$
|
61 | 64 |
|
62 | 65 | 로 정의하자.
|
63 | 66 | 저 정의가 조금 덜 엄밀할 것 같으면 ($\Pi$가 무한집합이라 최댓값이 존재하지 않을 수 있으니) $\max$를 $\sup$으로 바꿔도 될 듯하다.
|
64 |
| - |
65 | 67 | 그러면 모든 정책 $\pi\in\Pi$에 대하여
|
66 | 68 |
|
67 |
| -$$v_\ast(s)\le v_\pi(s)$$ |
| 69 | +$$v_\pi (s)\le v_\ast(s)$$ |
68 | 70 |
|
69 | 71 | 가 성립한다.
|
70 |
| -그리고 이에 대응하는 함수 $q_\ast$를 (e3.13)와 비슷하게 다음과 같이 정의하고 |
| 72 | +$v_\ast$에 대응하는 함수 $q_\ast$를 (e3.13)와 비슷하게 다음과 같이 |
71 | 73 |
|
72 | 74 | $$q_\ast(s,a)=\sum_{r,s'}p(r,s'|s,a)(r+\gamma v_\ast(s'))$$
|
73 | 75 |
|
74 |
| -정책 $\pi^\ast$를 다음과 같이 정의한다. |
75 |
| -주어진 $s\in\mathcal S$에 대하여 |
76 |
| -$A=\{a'\in\mathcal A:q_\ast(s,a')=\max_a q_\ast(s,a)\}$는 $|A|\ge1$을 만족하므로 |
| 76 | +로 정의하자. |
| 77 | +그러면 $q_\ast$도 최대가 된다. |
| 78 | +왜냐하면 모든 $\pi\in\Pi$에 대하여, $p(r,s'|s,a)\ge0$, $\gamma\ge0$으로부터 |
| 79 | + |
| 80 | +$$ |
| 81 | +\begin{align*} |
| 82 | +q_\pi(s,a) |
| 83 | +&=\sum_{r,s'}p(r,s'|s,a)(r+\gamma v_\pi(s'))\\ |
| 84 | +&=\sum_{r,s'}p(r,s'|s,a)(r+\gamma v_\ast(s'))\\ |
| 85 | +&=q_\ast(s,a) |
| 86 | +\end{align*} |
| 87 | +$$ |
| 88 | + |
| 89 | +이기 때문이다. |
| 90 | +이제 이로부터 최적정책 $\pi^\ast$를 greedy하게 정의한다. |
| 91 | +$q$함수가 주어졌으니, 주어진 $s$에 대해서 $q$값이 가장 큰 action(들)을 다 더해서 1이 되도록 양의 확률을 주고 나머지 경우는 모두 0으로 주는 것이다. |
| 92 | +예를 들어, $\pi(a|s)=\\{a'\in A:q_\ast(s,a')=\max_{\pi\in\Pi}q_\pi(s,a)\\}$ 로 두고 |
| 93 | + |
| 94 | +$$ |
| 95 | +\begin{align*} |
| 96 | +\pi^\ast(a|s) = |
| 97 | +\begin{cases} |
| 98 | +\frac1{\left|A\right|}&a\in A\\ |
| 99 | +0 &a\notin A\\ |
| 100 | +\end{cases} |
| 101 | +\end{align*} |
| 102 | +$$ |
| 103 | + |
| 104 | +로 할 수도 있고, 아니면 $q_\ast(s,a_\ast)=\max_{\pi\in\Pi}q_\pi(s,a)$를 만족시키는 action $a_\ast$에 대하여 |
77 | 105 |
|
78 |
| -$$\pi^\ast(a|s)= |
| 106 | +$$ |
| 107 | +\begin{align*} |
| 108 | +\pi^\ast(a|s) = |
79 | 109 | \begin{cases}
|
80 |
| -\frac1{|A|}&a\in A\\ |
81 |
| -0&a\notin A |
| 110 | +1 &a=a'\\ |
| 111 | +0 &a\ne a'\\ |
82 | 112 | \end{cases}
|
| 113 | +\end{align*} |
| 114 | +$$ |
| 115 | + |
| 116 | +로 둘 수도 있는 것이다. |
| 117 | +<!-- 두번째 경우를 $\pi^\ast$로 사용하자. --> |
| 118 | +그러면 |
| 119 | + |
| 120 | +$$ |
| 121 | +\begin{align*} |
| 122 | +v_\pi(s) |
| 123 | +&=\sum_{a\in\mathcal A}\pi(a|s)q_\pi(s,a),\\ |
| 124 | +&\le\sum_{a\in\mathcal A}\pi(a|s)q_\ast(s,a),\\ |
| 125 | +&=v_\ast(s) |
| 126 | +\end{align*} |
83 | 127 | $$
|
84 | 128 |
|
85 |
| -로 정의하면 $\pi^\ast$는 optimal policy가 된다. |
| 129 | +이다. |
0 commit comments