Skip to content

Commit 881284f

Browse files
committed
optimal equatio. I'm sleepy now
1 parent 3e9a154 commit 881284f

File tree

1 file changed

+56
-12
lines changed

1 file changed

+56
-12
lines changed

_posts/2025-09-03-bellman_optimal_equation.md

Lines changed: 56 additions & 12 deletions
Original file line numberDiff line numberDiff line change
@@ -1,6 +1,6 @@
11
---
22
layout: single
3-
title: "Belllman optimal equation"
3+
title: "Bellman optimal equation"
44
categories: machine-learning
55
tags: [reinforcement learing, Bellman optimal equation, partial order]
66
use_math: true
@@ -53,33 +53,77 @@ $\left(\Pi,\ge\right)$는 분명히 totally ordered set은 아니다.
5353
따라서 $\left(\Pi,\ge\right)$는 maximal의 존재는 보장되지만, maximum의 존재는 보장될 수 없다.
5454
하지만 이 경우에는 maximum이 보장된다.
5555
즉, 정책들의 최댓값, 혹은 최적 정책(optimal policy, $\pi^\ast$)의 존재가 보장된다.
56-
다시 말해, 모든 $\pi\in\Pi$에 대하여 $\pi\le\pi^\ast$인 $\pi^\ast\in\Pi$가 존재한다. (Claim 1)
56+
다시 말해, $\pi\le\pi^\ast$인 $\pi^\ast\in\Pi$가 존재한다. (Claim 1)
57+
58+
이것은 Sutton의 책에 언급만 되어있고 설명이나 증명이 있지는 않다.
59+
그래서 간략하게 다음과 같이 증명해 해보려 한다.
5760

5861
먼저, 함수 $v_\ast$를
5962

6063
$$v_\ast(s)=\max_{\pi\in\Pi}v_\pi(s)$$
6164

6265
로 정의하자.
6366
저 정의가 조금 덜 엄밀할 것 같으면 ($\Pi$가 무한집합이라 최댓값이 존재하지 않을 수 있으니) $\max$를 $\sup$으로 바꿔도 될 듯하다.
64-
6567
그러면 모든 정책 $\pi\in\Pi$에 대하여
6668

67-
$$v_\ast(s)\le v_\pi(s)$$
69+
$$v_\pi (s)\le v_\ast(s)$$
6870

6971
가 성립한다.
70-
그리고 이에 대응하는 함수 $q_\ast$를 (e3.13)와 비슷하게 다음과 같이 정의하고
72+
$v_\ast$에 대응하는 함수 $q_\ast$를 (e3.13)와 비슷하게 다음과 같이
7173

7274
$$q_\ast(s,a)=\sum_{r,s'}p(r,s'|s,a)(r+\gamma v_\ast(s'))$$
7375

74-
정책 $\pi^\ast$를 다음과 같이 정의한다.
75-
주어진 $s\in\mathcal S$에 대하여
76-
$A=\{a'\in\mathcal A:q_\ast(s,a')=\max_a q_\ast(s,a)\}$는 $|A|\ge1$을 만족하므로
76+
로 정의하자.
77+
그러면 $q_\ast$도 최대가 된다.
78+
왜냐하면 모든 $\pi\in\Pi$에 대하여, $p(r,s'|s,a)\ge0$, $\gamma\ge0$으로부터
79+
80+
$$
81+
\begin{align*}
82+
q_\pi(s,a)
83+
&=\sum_{r,s'}p(r,s'|s,a)(r+\gamma v_\pi(s'))\\
84+
&=\sum_{r,s'}p(r,s'|s,a)(r+\gamma v_\ast(s'))\\
85+
&=q_\ast(s,a)
86+
\end{align*}
87+
$$
88+
89+
이기 때문이다.
90+
이제 이로부터 최적정책 $\pi^\ast$를 greedy하게 정의한다.
91+
$q$함수가 주어졌으니, 주어진 $s$에 대해서 $q$값이 가장 큰 action(들)을 다 더해서 1이 되도록 양의 확률을 주고 나머지 경우는 모두 0으로 주는 것이다.
92+
예를 들어, $\pi(a|s)=\\{a'\in A:q_\ast(s,a')=\max_{\pi\in\Pi}q_\pi(s,a)\\}$ 로 두고
93+
94+
$$
95+
\begin{align*}
96+
\pi^\ast(a|s) =
97+
\begin{cases}
98+
\frac1{\left|A\right|}&a\in A\\
99+
0 &a\notin A\\
100+
\end{cases}
101+
\end{align*}
102+
$$
103+
104+
로 할 수도 있고, 아니면 $q_\ast(s,a_\ast)=\max_{\pi\in\Pi}q_\pi(s,a)$를 만족시키는 action $a_\ast$에 대하여
77105

78-
$$\pi^\ast(a|s)=
106+
$$
107+
\begin{align*}
108+
\pi^\ast(a|s) =
79109
\begin{cases}
80-
\frac1{|A|}&a\in A\\
81-
0&a\notin A
110+
1 &a=a'\\
111+
0 &a\ne a'\\
82112
\end{cases}
113+
\end{align*}
114+
$$
115+
116+
로 둘 수도 있는 것이다.
117+
<!-- 두번째 경우를 $\pi^\ast$로 사용하자. -->
118+
그러면
119+
120+
$$
121+
\begin{align*}
122+
v_\pi(s)
123+
&=\sum_{a\in\mathcal A}\pi(a|s)q_\pi(s,a),\\
124+
&\le\sum_{a\in\mathcal A}\pi(a|s)q_\ast(s,a),\\
125+
&=v_\ast(s)
126+
\end{align*}
83127
$$
84128

85-
로 정의하면 $\pi^\ast$는 optimal policy가 된다.
129+
이다.

0 commit comments

Comments
 (0)