Skip to content

Commit 5caaf0c

Browse files
committed
made bellman equation section separately
1 parent 7028928 commit 5caaf0c

File tree

1 file changed

+3
-1
lines changed

1 file changed

+3
-1
lines changed

_posts/2025-08-20-policy_evaluation.md

Lines changed: 3 additions & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -141,7 +141,7 @@ $$G_t=\sum_{k=0}^\infty\gamma^kR_{t+k+1}\tag{3.8}$$
141141
discount factor를 적용하면, $G_t$가 마치 멱급수처럼 되어서, 항상 수렴하게 되는 것이다.
142142
어떤 수학적인 거리낌도 없이, 자신있게 $G_t$를 쓸 수 있게 되는 것이다.
143143

144-
# 2. policy, value function, Bellman equation
144+
# 2. policy, value functions
145145

146146
transition dynamics 혹은 환경모델은 환경이 어떻게 구성되어있느냐를 나타낸다.
147147
$S_t$, $A_t$가 주어졌을 때 $S_{t+1}$, $R_{t+1}$의 분포를 결정해준다.
@@ -179,6 +179,8 @@ $$q_\pi(s,a)=\mathbb E\left[G_t|S_t=s,A_t=a\right]\tag{3.13}$$
179179

180180
이며, 이것은 현재 상태 $s$에서 행동 $a$를 취하고 정책 $\pi$를 따라나갈 때의 return의 기댓값이다.
181181

182+
# 3. Bellman equations
183+
182184
<!-- 모든 상태 $s\in\mathcal S$에 대하여 식(3.14)가 성립한다.
183185
이것은 Bellman equation이라고 불린다. -->
184186
<!-- 하지만 그 전에 -->

0 commit comments

Comments
 (0)