Skip to content

Commit 6f4f54b

Browse files
committed
last modificaitons
1 parent 881284f commit 6f4f54b

File tree

1 file changed

+11
-9
lines changed

1 file changed

+11
-9
lines changed

_posts/2025-09-03-bellman_optimal_equation.md

Lines changed: 11 additions & 9 deletions
Original file line numberDiff line numberDiff line change
@@ -43,14 +43,14 @@ Sutton은 컴퓨터공학자라고 한다.
4343

4444
$$\Pi=\left\{\pi(\cdot|\cdot):\mathcal S\times\mathcal A\to[0,1]\,\vert\,\sum_{a\in\mathcal A}\pi(a|s)=1\right\}$$
4545

46-
$\Pi$에 partial order $\ge$를 다음과 같이 정의해 partially ordered set $\left(\Pi,\ge\right)$를 생각할 수 있다.
47-
두 policy $\pi, \pi'\in\Pi$에 대하여 $\pi\ge\pi'$인 것의 정의는 모든 $s\in\mathcal S$에 대하여
46+
$\Pi$에 partial order $\le$를 다음과 같이 정의해 partially ordered set $\left(\Pi,\le\right)$를 생각할 수 있다.
47+
두 policy $\pi, \pi'\in\Pi$에 대하여 $\pi\le\pi'$인 것의 정의는 모든 $s\in\mathcal S$에 대하여
4848

49-
$$v_\pi(s)\ge v_{\pi'}(s)$$
49+
$$v_\pi(s)\le v_{\pi'}(s)$$
5050

5151
인 것이다.
52-
$\left(\Pi,\ge\right)$는 분명히 totally ordered set은 아니다.
53-
따라서 $\left(\Pi,\ge\right)$는 maximal의 존재는 보장되지만, maximum의 존재는 보장될 수 없다.
52+
$\left(\Pi,\le\right)$는 분명히 totally ordered set은 아니다.
53+
따라서 $\left(\Pi,\le\right)$는 maximal의 존재는 보장되지만, maximum의 존재는 보장될 수 없다.
5454
하지만 이 경우에는 maximum이 보장된다.
5555
즉, 정책들의 최댓값, 혹은 최적 정책(optimal policy, $\pi^\ast$)의 존재가 보장된다.
5656
다시 말해, $\pi\le\pi^\ast$인 $\pi^\ast\in\Pi$가 존재한다. (Claim 1)
@@ -75,13 +75,14 @@ $$q_\ast(s,a)=\sum_{r,s'}p(r,s'|s,a)(r+\gamma v_\ast(s'))$$
7575

7676
로 정의하자.
7777
그러면 $q_\ast$도 최대가 된다.
78-
왜냐하면 모든 $\pi\in\Pi$에 대하여, $p(r,s'|s,a)\ge0$, $\gamma\ge0$으로부터
78+
즉, 모든 $s$, $a$에 대하여 $v(s,a)\le q_\ast(s,a)$이다.
79+
왜냐하면 모든 $\pi\in\Pi$에 대하여, $p(r,s'|s,a)\le0$, $\gamma\ge0$으로부터
7980

8081
$$
8182
\begin{align*}
8283
q_\pi(s,a)
8384
&=\sum_{r,s'}p(r,s'|s,a)(r+\gamma v_\pi(s'))\\
84-
&=\sum_{r,s'}p(r,s'|s,a)(r+\gamma v_\ast(s'))\\
85+
&\le\sum_{r,s'}p(r,s'|s,a)(r+\gamma v_\ast(s'))\\
8586
&=q_\ast(s,a)
8687
\end{align*}
8788
$$
@@ -121,8 +122,9 @@ $$
121122
\begin{align*}
122123
v_\pi(s)
123124
&=\sum_{a\in\mathcal A}\pi(a|s)q_\pi(s,a),\\
124-
&\le\sum_{a\in\mathcal A}\pi(a|s)q_\ast(s,a),\\
125-
&=v_\ast(s)
125+
&\le\sum_{a\in\mathcal A}\pi^\ast(a|s)q_{\pi_\ast}(s,a),\\
126+
&=q_\pi(s,a')\\
127+
&=v_{\pi^\ast}(s)
126128
\end{align*}
127129
$$
128130

0 commit comments

Comments
 (0)