Skip to content

Commit c2f36bd

Browse files
committed
last modifications
1 parent 1ca76ca commit c2f36bd

File tree

1 file changed

+2
-1
lines changed

1 file changed

+2
-1
lines changed

_posts/2025-08-20-finite_mdp.md

Lines changed: 2 additions & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -349,7 +349,7 @@ Sutton은 컴퓨터공학자라고 한다.
349349
---
350350

351351

352-
어떤 finite MDP $\mathscr D(\mathcal S,\mathcal A, p, \gamma)$에 대하여 policy들의 집합을 $\Pi$라고 표시하자.
352+
어떤 $\mathscr D(\mathcal S,\mathcal A, p, \gamma)$에 대하여 policy들의 집합을 $\Pi$라고 표시하자.
353353

354354
<!-- $$\Pi=\left\{\pi(\cdot|\cdot):\mathcal S\times\mathcal A\to[0,1]\,\vert\,\sum_{a\in\mathcal A}\pi(a|s)=1\right\}$$ -->
355355

@@ -529,6 +529,7 @@ v_\ast(s)
529529
\end{align*}
530530
$$
531531

532+
이다.
532533
좌변이 (3.18) 또는 (3.19)와 같다는 것이 state value function에 대한 Bellman optimal equation이다.
533534
두 식은, 정말로 정책에 dependent한 식이 아니다.
534535
(3.19)에 subscript로 $\pi$같은게 없다는 것이다.

0 commit comments

Comments
 (0)