226
226
\begin{align*}
227
227
q_\pi(s,a)
228
228
&=\mathbb E\left[G_t|S_t=s,A_t=a\right]\\
229
- &=\sum_{r,s' }p(r,s' |s,a)\mathbb E\left[R_{t+1}+\gamma R_{t+2}|S_t=s,A_t=a, R_{t+1}=r,S_{t+1}=s'\right]\\
230
- &=\sum_{r,s' }p(r,s' |s,a)\mathbb E\left[r+\gamma R_{t+2}|S_{t+1}=s'\right]\\
231
- &=\sum_{r,s' }p(r,s' |s,a)\left(r+\gamma\mathbb E\left[R_{t+2}|S_{t+1}=s'\right]\right)\\
232
- &=\sum_{r,s' }p(r,s' |s,a)\left(r+\gamma v_\pi(s')\right)\tag{e3.13}
229
+ &=\sum_{s',r }p(s',r |s,a)\mathbb E\left[R_{t+1}+\gamma R_{t+2}|S_t=s,A_t=a, R_{t+1}=r,S_{t+1}=s'\right]\\
230
+ &=\sum_{s',r }p(s',r |s,a)\mathbb E\left[r+\gamma R_{t+2}|S_{t+1}=s'\right]\\
231
+ &=\sum_{s',r }p(s',r |s,a)\left(r+\gamma\mathbb E\left[R_{t+2}|S_{t+1}=s'\right]\right)\\
232
+ &=\sum_{s',r }p(s',r |s,a)\left(r+\gamma v_\pi(s')\right)\tag{e3.13}
233
233
\end{align*}
234
234
$$
235
235
@@ -260,10 +260,10 @@ v_\pi(s)
260
260
&=\mathbb E_\pi\left[G_t|S_t=s\right]\\
261
261
&=\mathbb E_\pi\left[R_{t+1}+\gamma G_{t+1}|S_t=s\right]\\
262
262
&=\sum_a\pi(a|s)\mathbb E_\pi\left[R_{t+1}+\gamma G_{t+1}|S_t=s,A_t=a\right]\\
263
- &=\sum_a\pi(a|s)\sum_{r,s' }p(r,s' |s,a)\mathbb E_\pi\left[R_{t+1}+\gamma G_{t+1}|S_t=s,A_t=a,R_{t+1}=r,S_{t+1}=s'\right]\\
264
- &=\sum_a\pi(a|s)\sum_{r,s' }p(r,s' |s,a)\mathbb E_\pi\left[r+\gamma G_{t+1}|S_{t+1}=s'\right]\\
265
- &=\sum_a\pi(a|s)\sum_{r,s' }p(r,s' |s,a)\left(r+\gamma\mathbb E_\pi\left[G_{t+1}|S_{t+1}=s'\right]\right)\\
266
- &=\sum_a\pi(a|s)\sum_{r,s' }p(r,s' |s,a)\left(r+\gamma v_\pi(s')\right)\tag{3.14}
263
+ &=\sum_a\pi(a|s)\sum_{s',r }p(s',r |s,a)\mathbb E_\pi\left[R_{t+1}+\gamma G_{t+1}|S_t=s,A_t=a,R_{t+1}=r,S_{t+1}=s'\right]\\
264
+ &=\sum_a\pi(a|s)\sum_{s',r }p(s',r |s,a)\mathbb E_\pi\left[r+\gamma G_{t+1}|S_{t+1}=s'\right]\\
265
+ &=\sum_a\pi(a|s)\sum_{s',r }p(s',r |s,a)\left(r+\gamma\mathbb E_\pi\left[G_{t+1}|S_{t+1}=s'\right]\right)\\
266
+ &=\sum_a\pi(a|s)\sum_{s',r }p(s',r |s,a)\left(r+\gamma v_\pi(s')\right)\tag{3.14}
267
267
\end{align*}
268
268
$$
269
269
288
288
q_\pi(s,a)
289
289
&=\mathbb E_\pi\left[G_t|S_t=s, A_t=a\right]\\
290
290
&=\mathbb E_\pi\left[R_{t+1}+\gamma G_{t+1}|S_t=s, A_t=a\right]\\
291
- &=\sum_{r, s' } p(s', r|s,a)\mathbb E_\pi\left[R_{t+1}+\gamma G_{t+1}|S_t=s,A_t=a, R_{t+1}=r, S_{t+1}=s'\right]\\
292
- &=\sum_{r, s' } p(s', r|s,a)\mathbb E_\pi\left[r+\gamma G_{t+1}|S_{t+1}=s'\right]\\
293
- &=\sum_{r, s' } p(s', r|s,a)\left(r+\gamma\mathbb E_\pi\left[G_{t+1}|S_{t+1}=s'\right]\right)\\
294
- &=\sum_{r, s' } p(s', r|s,a)\left(r+\gamma\sum_{a'}\pi(a'|s')\mathbb E_\pi\left[G_{t+1}|S_{t+1}=s', A_{t+1}=a'\right]\right)\\
295
- &=\sum_{r, s' } p(s', r|s,a)\left(r+\gamma\sum_{a'}\pi(a'|s')q_\pi(s',a')\right)\tag{e3.17}
291
+ &=\sum_{s',r } p(s', r|s,a)\mathbb E_\pi\left[R_{t+1}+\gamma G_{t+1}|S_t=s,A_t=a, R_{t+1}=r, S_{t+1}=s'\right]\\
292
+ &=\sum_{s',r } p(s', r|s,a)\mathbb E_\pi\left[r+\gamma G_{t+1}|S_{t+1}=s'\right]\\
293
+ &=\sum_{s',r } p(s', r|s,a)\left(r+\gamma\mathbb E_\pi\left[G_{t+1}|S_{t+1}=s'\right]\right)\\
294
+ &=\sum_{s',r } p(s', r|s,a)\left(r+\gamma\sum_{a'}\pi(a'|s')\mathbb E_\pi\left[G_{t+1}|S_{t+1}=s', A_{t+1}=a'\right]\right)\\
295
+ &=\sum_{s',r } p(s', r|s,a)\left(r+\gamma\sum_{a'}\pi(a'|s')q_\pi(s',a')\right)\tag{e3.17}
296
296
\end{align*}
297
297
$$
298
298
@@ -311,10 +311,10 @@ v_\pi(s)
311
311
q_\pi(s,a)
312
312
&=\mathbb E_\pi\left[G_t|S_t=s, A_t=a\right]\\
313
313
&=\mathbb E_\pi\left[R_{t+1}+\gamma G_{t+1}|S_t=s, A_t=a\right]\\
314
- &=\sum_{r, s' } p(s', r|s,a)\mathbb E_\pi\left[R_{t+1}+\gamma G_{t+1}|S_t=s,A_t=a, R_{t+1}=r, S_{t+1}=s'\right]\\
315
- &=\sum_{r, s' } p(s', r|s,a)\mathbb E_\pi\left[r+\gamma G_{t+1}|S_{t+1}=s'\right]\\
316
- &=\sum_{r, s' } p(s', r|s,a)\left(r+\gamma\mathbb E_\pi\left[G_{t+1}|S_{t+1}=s'\right]\right)\\
317
- &=\sum_{r, s' } p(s', r|s,a)\left(r+\gamma v_\pi(s')\right)
314
+ &=\sum_{s',r } p(s', r|s,a)\mathbb E_\pi\left[R_{t+1}+\gamma G_{t+1}|S_t=s,A_t=a, R_{t+1}=r, S_{t+1}=s'\right]\\
315
+ &=\sum_{s',r } p(s', r|s,a)\mathbb E_\pi\left[r+\gamma G_{t+1}|S_{t+1}=s'\right]\\
316
+ &=\sum_{s',r } p(s', r|s,a)\left(r+\gamma\mathbb E_\pi\left[G_{t+1}|S_{t+1}=s'\right]\right)\\
317
+ &=\sum_{s',r } p(s', r|s,a)\left(r+\gamma v_\pi(s')\right)
318
318
\tag{e3.19}
319
319
\end{align*}
320
320
$$
@@ -387,18 +387,18 @@ $$v_\pi (s)\le v_\ast(s)$$
387
387
가 성립한다.
388
388
$v_ \ast$에 대응하는 함수 $q_ \ast$를 (e3.13)와 비슷하게
389
389
390
- $$ q_\ast(s,a)=\sum_{r,s' }p(r,s' |s,a)(r+\gamma v_\ast(s')) $$
390
+ $$ q_\ast(s,a)=\sum_{s',r }p(s',r |s,a)(r+\gamma v_\ast(s')) $$
391
391
392
392
로 정의하자.
393
393
그러면 $q_ \ast$도 최대가 된다.
394
394
즉, 모든 $s$, $a$에 대하여 $v(s,a)\le q_ \ast(s,a)$이다.
395
- 왜냐하면 모든 $\pi\in\Pi$에 대하여, $p(r,s' |s,a)\le0$, $\gamma\ge0$으로부터
395
+ 왜냐하면 모든 $\pi\in\Pi$에 대하여, $p(s',r |s,a)\le0$, $\gamma\ge0$으로부터
396
396
397
397
$$
398
398
\begin{align*}
399
399
q_\pi(s,a)
400
- &=\sum_{r,s' }p(r,s' |s,a)(r+\gamma v_\pi(s'))\\
401
- &\le\sum_{r,s' }p(r,s' |s,a)(r+\gamma v_\ast(s'))\\
400
+ &=\sum_{s',r }p(s',r |s,a)(r+\gamma v_\pi(s'))\\
401
+ &\le\sum_{s',r }p(s',r |s,a)(r+\gamma v_\ast(s'))\\
402
402
&=q_\ast(s,a)
403
403
\end{align*}
404
404
$$
476
476
직접 증명하려고 했던 것도 성공하지 못했고, 기존 자료를 이해하는 것도 실패했으니
477
477
optimal policy의 존재성은 다음 포스트에서 iterative한 방식으로 얻어내려고 한다.
478
478
479
- ## 3.7 Bellman optimal equations
479
+ ## 3.6 Bellman optimal equations
480
480
481
+ (9/14)이 이론들을 처음 본 건 벌써 5년 전이다.
482
+ 그런데도 아직도 개념들이 헷갈리고 계산에 확신이 없는 걸 보면 당시에 제대로 공부하지 않았던 것이 확실하다.
483
+ 지금도 그냥 Bellman equation에 적당히 maximum을 달면 되는 게 아닌가 하는 안일한 생각을 가지고 있으면서, 얼른 Bellman operator와 contraction principle로 넘어가려 했던 것이다.
484
+ 하지만 Sutton의 책 내용을 잘 따라가는 것만으로도 솔직히 조금 벅차다.
485
+ 그렇다고 Sutton 책의 내용이 이해가 안간다는 건 아니다.
486
+ 그러니 욕심을 내지는 말고, 잘 따라가보자.
487
+
488
+ ---
489
+
490
+ optimal policy $\pi^\ast$가 존재한다고 가정하자.
491
+ $\pi^\ast$에 따른 state value function과 action value function은 비슷한 종류의 maximality를 가진다.
492
+ 즉, $v_ \ast=v_ {\pi^\ast}$, $q_ \ast=q_ {\pi^\ast}$라고 가정하면, 모든 $\pi\in\Pi$에 대하여
493
+
494
+ $$
495
+ \begin{align*}
496
+ v_\pi(s)&\le v_\ast(s)&&\forall s\in\mathcal S\\
497
+ q_\pi(s,a)&\le q_\ast(s,a)&&\forall s\in\mathcal S,\forall a\in\mathcal A
498
+ \end{align*}
499
+ $$
500
+
501
+ 이다.
502
+ 혹은, 조금 더 정확하게
503
+
504
+ $$
505
+ \begin{align}
506
+ v_\ast(s)&=\max_\pi v_\pi(s)&&\forall s\in\mathcal S\tag{3.15}\\
507
+ q_\ast(s,a)&=\max_\pi q_\pi(s,a)&&\forall s\in\mathcal S,\forall a\in\mathcal A\tag{3.16}
508
+ \end{align}
509
+ $$
510
+
511
+ 이라고 쓸 수도 있다.
512
+
513
+ 이때, 다음과 같은 Bellman optimal equation이 성립한다.
514
+ 어떤 정책에도 의존하지 않는 식이라고 Sutton은 강조한다.
515
+ 순수하게 $v_ \ast(s)$들 사이의 관계식으로서 다음 식이 성립한다.
516
+ 모든 $s\in\mathcal S$에 대하여,
517
+
518
+ $$
519
+ \begin{align*}
520
+ v_\ast(s)
521
+ &=\max_a q_\ast(s,a)\\
522
+ &=\max_a\mathbb E_\ast\left[G_t|S_t=s,A_t=a\right]\\
523
+ &=\max_a\mathbb E_\ast\left[R_{t+1}+\gamma G_{t+1}|S_t=s,A_t=a\right]\\
524
+ &=\max_a\sum_{s',r}\mathbb E_\ast\left[R_{t+1}+\gamma G_{t+1}|S_t=s,A_t=a,S_{t+1}=s',R_{t+1}=r\right]p(s',r|s,a)\\
525
+ &=\max_a\sum_{s',r}\mathbb E_\ast\left[r+\gamma G_{t+1}|S_{t+1}=s'\right]p(s',r|s,a)\\
526
+ &=\max_a\sum_{s',r}\left(r+\gamma \mathbb E_\ast\left[G_{t+1}|S_{t+1}=s'\right]\right)p(s',r|s,a)\\
527
+ &=\max_a\sum_{s',r}\left(r+\gamma v_\ast(s')\right)p(s',r|s,a)\tag{3.18}\\
528
+ &=\max_a\mathbb E\left[R_{t+1}+\gamma v_\ast\left(S_{t+1}\right)|S_t=s,A_t=a\right]\tag{3.19}
529
+ \end{align*}
530
+ $$
531
+
532
+ 좌변이 (3.18) 또는 (3.19)와 같다는 것이 state value function에 대한 Bellman optimal equation이다.
533
+ 두 식은, 정말로 정책에 dependent한 식이 아니다.
534
+ (3.19)에 subscript로 $\pi$같은게 없다는 것이다.
535
+
536
+ 이것은 $|\mathcal S|$개의 변수 $v_ \ast(s)$에 대한 $|\mathcal S|$개의 식으로 이루어진 연립방정식이다.
537
+ $\max$를 포함하고 있어 일차연립방정식은 아니다, 즉 비선형 연립방정식이다.
538
+ $q_ \ast$ 버전의 Bellman optimal equation은 다음과 같다.
539
+
540
+ $$
541
+ \begin{align*}
542
+ q_\ast(s,a)
543
+ &=\mathbb E_\ast\left[G_t|S_t=s,A_t=a\right]\\
544
+ &=\mathbb E\left[R_{t+1}+\gamma v_\ast(S_{t+1})|S_t=s,A_t=a\right]\\
545
+ &=\mathbb E\left[R_{t+1}+\gamma\max_{a'}q_\ast\left(S_{t+1},a\right))|S_t=s,A_t=a\right]\\
546
+ &=\sum_{s',r}p(s',r|s,a)\left[r+\gamma\max_{a'}q_\ast(s',a')\right]\tag{3.20}
547
+ \end{align*}
548
+ $$
0 commit comments