Skip to content

Commit bfe7abb

Browse files
committed
finished anyway
1 parent 99ee683 commit bfe7abb

File tree

1 file changed

+90
-22
lines changed

1 file changed

+90
-22
lines changed

_posts/2025-08-20-finite_mdp.md

Lines changed: 90 additions & 22 deletions
Original file line numberDiff line numberDiff line change
@@ -226,10 +226,10 @@ $$
226226
\begin{align*}
227227
q_\pi(s,a)
228228
&=\mathbb E\left[G_t|S_t=s,A_t=a\right]\\
229-
&=\sum_{r,s'}p(r,s'|s,a)\mathbb E\left[R_{t+1}+\gamma R_{t+2}|S_t=s,A_t=a, R_{t+1}=r,S_{t+1}=s'\right]\\
230-
&=\sum_{r,s'}p(r,s'|s,a)\mathbb E\left[r+\gamma R_{t+2}|S_{t+1}=s'\right]\\
231-
&=\sum_{r,s'}p(r,s'|s,a)\left(r+\gamma\mathbb E\left[R_{t+2}|S_{t+1}=s'\right]\right)\\
232-
&=\sum_{r,s'}p(r,s'|s,a)\left(r+\gamma v_\pi(s')\right)\tag{e3.13}
229+
&=\sum_{s',r}p(s',r|s,a)\mathbb E\left[R_{t+1}+\gamma R_{t+2}|S_t=s,A_t=a, R_{t+1}=r,S_{t+1}=s'\right]\\
230+
&=\sum_{s',r}p(s',r|s,a)\mathbb E\left[r+\gamma R_{t+2}|S_{t+1}=s'\right]\\
231+
&=\sum_{s',r}p(s',r|s,a)\left(r+\gamma\mathbb E\left[R_{t+2}|S_{t+1}=s'\right]\right)\\
232+
&=\sum_{s',r}p(s',r|s,a)\left(r+\gamma v_\pi(s')\right)\tag{e3.13}
233233
\end{align*}
234234
$$
235235

@@ -260,10 +260,10 @@ v_\pi(s)
260260
&=\mathbb E_\pi\left[G_t|S_t=s\right]\\
261261
&=\mathbb E_\pi\left[R_{t+1}+\gamma G_{t+1}|S_t=s\right]\\
262262
&=\sum_a\pi(a|s)\mathbb E_\pi\left[R_{t+1}+\gamma G_{t+1}|S_t=s,A_t=a\right]\\
263-
&=\sum_a\pi(a|s)\sum_{r,s'}p(r,s'|s,a)\mathbb E_\pi\left[R_{t+1}+\gamma G_{t+1}|S_t=s,A_t=a,R_{t+1}=r,S_{t+1}=s'\right]\\
264-
&=\sum_a\pi(a|s)\sum_{r,s'}p(r,s'|s,a)\mathbb E_\pi\left[r+\gamma G_{t+1}|S_{t+1}=s'\right]\\
265-
&=\sum_a\pi(a|s)\sum_{r,s'}p(r,s'|s,a)\left(r+\gamma\mathbb E_\pi\left[G_{t+1}|S_{t+1}=s'\right]\right)\\
266-
&=\sum_a\pi(a|s)\sum_{r,s'}p(r,s'|s,a)\left(r+\gamma v_\pi(s')\right)\tag{3.14}
263+
&=\sum_a\pi(a|s)\sum_{s',r}p(s',r|s,a)\mathbb E_\pi\left[R_{t+1}+\gamma G_{t+1}|S_t=s,A_t=a,R_{t+1}=r,S_{t+1}=s'\right]\\
264+
&=\sum_a\pi(a|s)\sum_{s',r}p(s',r|s,a)\mathbb E_\pi\left[r+\gamma G_{t+1}|S_{t+1}=s'\right]\\
265+
&=\sum_a\pi(a|s)\sum_{s',r}p(s',r|s,a)\left(r+\gamma\mathbb E_\pi\left[G_{t+1}|S_{t+1}=s'\right]\right)\\
266+
&=\sum_a\pi(a|s)\sum_{s',r}p(s',r|s,a)\left(r+\gamma v_\pi(s')\right)\tag{3.14}
267267
\end{align*}
268268
$$
269269

@@ -288,11 +288,11 @@ $$
288288
q_\pi(s,a)
289289
&=\mathbb E_\pi\left[G_t|S_t=s, A_t=a\right]\\
290290
&=\mathbb E_\pi\left[R_{t+1}+\gamma G_{t+1}|S_t=s, A_t=a\right]\\
291-
&=\sum_{r, s'} p(s', r|s,a)\mathbb E_\pi\left[R_{t+1}+\gamma G_{t+1}|S_t=s,A_t=a, R_{t+1}=r, S_{t+1}=s'\right]\\
292-
&=\sum_{r, s'} p(s', r|s,a)\mathbb E_\pi\left[r+\gamma G_{t+1}|S_{t+1}=s'\right]\\
293-
&=\sum_{r, s'} p(s', r|s,a)\left(r+\gamma\mathbb E_\pi\left[G_{t+1}|S_{t+1}=s'\right]\right)\\
294-
&=\sum_{r, s'} p(s', r|s,a)\left(r+\gamma\sum_{a'}\pi(a'|s')\mathbb E_\pi\left[G_{t+1}|S_{t+1}=s', A_{t+1}=a'\right]\right)\\
295-
&=\sum_{r, s'} p(s', r|s,a)\left(r+\gamma\sum_{a'}\pi(a'|s')q_\pi(s',a')\right)\tag{e3.17}
291+
&=\sum_{s',r} p(s', r|s,a)\mathbb E_\pi\left[R_{t+1}+\gamma G_{t+1}|S_t=s,A_t=a, R_{t+1}=r, S_{t+1}=s'\right]\\
292+
&=\sum_{s',r} p(s', r|s,a)\mathbb E_\pi\left[r+\gamma G_{t+1}|S_{t+1}=s'\right]\\
293+
&=\sum_{s',r} p(s', r|s,a)\left(r+\gamma\mathbb E_\pi\left[G_{t+1}|S_{t+1}=s'\right]\right)\\
294+
&=\sum_{s',r} p(s', r|s,a)\left(r+\gamma\sum_{a'}\pi(a'|s')\mathbb E_\pi\left[G_{t+1}|S_{t+1}=s', A_{t+1}=a'\right]\right)\\
295+
&=\sum_{s',r} p(s', r|s,a)\left(r+\gamma\sum_{a'}\pi(a'|s')q_\pi(s',a')\right)\tag{e3.17}
296296
\end{align*}
297297
$$
298298

@@ -311,10 +311,10 @@ v_\pi(s)
311311
q_\pi(s,a)
312312
&=\mathbb E_\pi\left[G_t|S_t=s, A_t=a\right]\\
313313
&=\mathbb E_\pi\left[R_{t+1}+\gamma G_{t+1}|S_t=s, A_t=a\right]\\
314-
&=\sum_{r, s'} p(s', r|s,a)\mathbb E_\pi\left[R_{t+1}+\gamma G_{t+1}|S_t=s,A_t=a, R_{t+1}=r, S_{t+1}=s'\right]\\
315-
&=\sum_{r, s'} p(s', r|s,a)\mathbb E_\pi\left[r+\gamma G_{t+1}|S_{t+1}=s'\right]\\
316-
&=\sum_{r, s'} p(s', r|s,a)\left(r+\gamma\mathbb E_\pi\left[G_{t+1}|S_{t+1}=s'\right]\right)\\
317-
&=\sum_{r, s'} p(s', r|s,a)\left(r+\gamma v_\pi(s')\right)
314+
&=\sum_{s',r} p(s', r|s,a)\mathbb E_\pi\left[R_{t+1}+\gamma G_{t+1}|S_t=s,A_t=a, R_{t+1}=r, S_{t+1}=s'\right]\\
315+
&=\sum_{s',r} p(s', r|s,a)\mathbb E_\pi\left[r+\gamma G_{t+1}|S_{t+1}=s'\right]\\
316+
&=\sum_{s',r} p(s', r|s,a)\left(r+\gamma\mathbb E_\pi\left[G_{t+1}|S_{t+1}=s'\right]\right)\\
317+
&=\sum_{s',r} p(s', r|s,a)\left(r+\gamma v_\pi(s')\right)
318318
\tag{e3.19}
319319
\end{align*}
320320
$$
@@ -387,18 +387,18 @@ $$v_\pi (s)\le v_\ast(s)$$
387387
가 성립한다.
388388
$v_\ast$에 대응하는 함수 $q_\ast$를 (e3.13)와 비슷하게
389389

390-
$$q_\ast(s,a)=\sum_{r,s'}p(r,s'|s,a)(r+\gamma v_\ast(s'))$$
390+
$$q_\ast(s,a)=\sum_{s',r}p(s',r|s,a)(r+\gamma v_\ast(s'))$$
391391

392392
로 정의하자.
393393
그러면 $q_\ast$도 최대가 된다.
394394
즉, 모든 $s$, $a$에 대하여 $v(s,a)\le q_\ast(s,a)$이다.
395-
왜냐하면 모든 $\pi\in\Pi$에 대하여, $p(r,s'|s,a)\le0$, $\gamma\ge0$으로부터
395+
왜냐하면 모든 $\pi\in\Pi$에 대하여, $p(s',r|s,a)\le0$, $\gamma\ge0$으로부터
396396

397397
$$
398398
\begin{align*}
399399
q_\pi(s,a)
400-
&=\sum_{r,s'}p(r,s'|s,a)(r+\gamma v_\pi(s'))\\
401-
&\le\sum_{r,s'}p(r,s'|s,a)(r+\gamma v_\ast(s'))\\
400+
&=\sum_{s',r}p(s',r|s,a)(r+\gamma v_\pi(s'))\\
401+
&\le\sum_{s',r}p(s',r|s,a)(r+\gamma v_\ast(s'))\\
402402
&=q_\ast(s,a)
403403
\end{align*}
404404
$$
@@ -476,5 +476,73 @@ $$
476476
직접 증명하려고 했던 것도 성공하지 못했고, 기존 자료를 이해하는 것도 실패했으니
477477
optimal policy의 존재성은 다음 포스트에서 iterative한 방식으로 얻어내려고 한다.
478478

479-
## 3.7 Bellman optimal equations
479+
## 3.6 Bellman optimal equations
480480

481+
(9/14)이 이론들을 처음 본 건 벌써 5년 전이다.
482+
그런데도 아직도 개념들이 헷갈리고 계산에 확신이 없는 걸 보면 당시에 제대로 공부하지 않았던 것이 확실하다.
483+
지금도 그냥 Bellman equation에 적당히 maximum을 달면 되는 게 아닌가 하는 안일한 생각을 가지고 있으면서, 얼른 Bellman operator와 contraction principle로 넘어가려 했던 것이다.
484+
하지만 Sutton의 책 내용을 잘 따라가는 것만으로도 솔직히 조금 벅차다.
485+
그렇다고 Sutton 책의 내용이 이해가 안간다는 건 아니다.
486+
그러니 욕심을 내지는 말고, 잘 따라가보자.
487+
488+
---
489+
490+
optimal policy $\pi^\ast$가 존재한다고 가정하자.
491+
$\pi^\ast$에 따른 state value function과 action value function은 비슷한 종류의 maximality를 가진다.
492+
즉, $v_\ast=v_{\pi^\ast}$, $q_\ast=q_{\pi^\ast}$라고 가정하면, 모든 $\pi\in\Pi$에 대하여
493+
494+
$$
495+
\begin{align*}
496+
v_\pi(s)&\le v_\ast(s)&&\forall s\in\mathcal S\\
497+
q_\pi(s,a)&\le q_\ast(s,a)&&\forall s\in\mathcal S,\forall a\in\mathcal A
498+
\end{align*}
499+
$$
500+
501+
이다.
502+
혹은, 조금 더 정확하게
503+
504+
$$
505+
\begin{align}
506+
v_\ast(s)&=\max_\pi v_\pi(s)&&\forall s\in\mathcal S\tag{3.15}\\
507+
q_\ast(s,a)&=\max_\pi q_\pi(s,a)&&\forall s\in\mathcal S,\forall a\in\mathcal A\tag{3.16}
508+
\end{align}
509+
$$
510+
511+
이라고 쓸 수도 있다.
512+
513+
이때, 다음과 같은 Bellman optimal equation이 성립한다.
514+
어떤 정책에도 의존하지 않는 식이라고 Sutton은 강조한다.
515+
순수하게 $v_\ast(s)$들 사이의 관계식으로서 다음 식이 성립한다.
516+
모든 $s\in\mathcal S$에 대하여,
517+
518+
$$
519+
\begin{align*}
520+
v_\ast(s)
521+
&=\max_a q_\ast(s,a)\\
522+
&=\max_a\mathbb E_\ast\left[G_t|S_t=s,A_t=a\right]\\
523+
&=\max_a\mathbb E_\ast\left[R_{t+1}+\gamma G_{t+1}|S_t=s,A_t=a\right]\\
524+
&=\max_a\sum_{s',r}\mathbb E_\ast\left[R_{t+1}+\gamma G_{t+1}|S_t=s,A_t=a,S_{t+1}=s',R_{t+1}=r\right]p(s',r|s,a)\\
525+
&=\max_a\sum_{s',r}\mathbb E_\ast\left[r+\gamma G_{t+1}|S_{t+1}=s'\right]p(s',r|s,a)\\
526+
&=\max_a\sum_{s',r}\left(r+\gamma \mathbb E_\ast\left[G_{t+1}|S_{t+1}=s'\right]\right)p(s',r|s,a)\\
527+
&=\max_a\sum_{s',r}\left(r+\gamma v_\ast(s')\right)p(s',r|s,a)\tag{3.18}\\
528+
&=\max_a\mathbb E\left[R_{t+1}+\gamma v_\ast\left(S_{t+1}\right)|S_t=s,A_t=a\right]\tag{3.19}
529+
\end{align*}
530+
$$
531+
532+
좌변이 (3.18) 또는 (3.19)와 같다는 것이 state value function에 대한 Bellman optimal equation이다.
533+
두 식은, 정말로 정책에 dependent한 식이 아니다.
534+
(3.19)에 subscript로 $\pi$같은게 없다는 것이다.
535+
536+
이것은 $|\mathcal S|$개의 변수 $v_\ast(s)$에 대한 $|\mathcal S|$개의 식으로 이루어진 연립방정식이다.
537+
$\max$를 포함하고 있어 일차연립방정식은 아니다, 즉 비선형 연립방정식이다.
538+
$q_\ast$ 버전의 Bellman optimal equation은 다음과 같다.
539+
540+
$$
541+
\begin{align*}
542+
q_\ast(s,a)
543+
&=\mathbb E_\ast\left[G_t|S_t=s,A_t=a\right]\\
544+
&=\mathbb E\left[R_{t+1}+\gamma v_\ast(S_{t+1})|S_t=s,A_t=a\right]\\
545+
&=\mathbb E\left[R_{t+1}+\gamma\max_{a'}q_\ast\left(S_{t+1},a\right))|S_t=s,A_t=a\right]\\
546+
&=\sum_{s',r}p(s',r|s,a)\left[r+\gamma\max_{a'}q_\ast(s',a')\right]\tag{3.20}
547+
\end{align*}
548+
$$

0 commit comments

Comments
 (0)