Skip to content

Commit db82aa3

Browse files
committed
last modifications
1 parent 6f4f54b commit db82aa3

File tree

1 file changed

+12
-10
lines changed

1 file changed

+12
-10
lines changed

_posts/2025-09-03-bellman_optimal_equation.md

Lines changed: 12 additions & 10 deletions
Original file line numberDiff line numberDiff line change
@@ -23,11 +23,11 @@ toc: true
2323
Sutton은 컴퓨터공학자라고 한다.
2424
첫 회사에서 만난, Texas A&M 대학교에서 석박통합과정으로 공부하고 있다는 컴공출신 분이, 어떤 사람이 '수학을 잘한다'라는 표현을 썼었다.
2525
그 분에게는 아무 말도 하지 않았지만 '수학을 잘한다'는 것에 대한 말의 의미에 대해 한참동안 고민했다.
26-
미적분이나 선형대수, 해석학이나 집합론, 위상수학과 측도론, 확률론 등의 기본 개념들에 대해 깊이 이해하고 그 원리를 명확하게 알려고 노력하는 것을 그 말한 분이 얼마나 해봤을까, 하고 생각했다.
26+
미적분이나 선형대수, 해석학이나 집합론, 위상수학과 대수학, 측도론과 확률론 등의 기본 개념들에 대해 깊이 이해하고 그 원리를 명확하게 알려고 노력하는 것을 그 말한 분이 얼마나 해봤을까, 하고 생각했다.
2727
아마도 baby rudin 정도의 엄밀한 reasoning을 따라가본 적은 없을 것도 같은데.
2828
보통 컴퓨터공학을 전공한 분들이 말하는 '수학을 잘한다', '머리가 좋다'는 건 어떤 개념일까, 하는 의문은 이쪽 업계에 있으면서 자주 든다.
2929
새로 부임하셨던, 컴퓨터공학 출신의 교수님이 수학에 대해 포괄적으로 논하는 것도 들었지만, 글쎄, 내가 범접할 수 없는 천재라면 모를까 수학은 그렇게 쉽게 정복될 수 있는 대상이 아니라는 생각이다.
30-
같이 일했던 어떤 분도 '수학을 잘하면 인공지능으로 돈을 많이 벌 수 있다'고 쉽게 말한 적이 있는데, 그분은 미적분도 잘 이해하지 못하실 것 같은데 어떤 의미로 그런 말씀을 하신 것인지 의아해 했던 적도 있다.
30+
직전 직장에서 같이 일했던 어떤 분도 '수학을 잘하면 인공지능으로 돈을 많이 벌 수 있다'고 쉽게 말한 적이 있는데, 그분은 미적분도 잘 이해하지 못하실 것 같은데 어떤 의미로 그런 말씀을 하신 것인지 의아해 했던 적도 있다.
3131

3232
말이 길었는데, 나는 Sutton은 컴퓨터공학자임에도 불구하고 수학을 잘 아는 사람이라고 쓰려고 했다.
3333
그 근거는 어떤 정책이 더 나은 정책이며, 가장 좋은 정책인 최적정책을 정의하는 데에 집합론의 partial ordering을 쓰고 있기 때문이다.
@@ -52,7 +52,7 @@ $$v_\pi(s)\le v_{\pi'}(s)$$
5252
$\left(\Pi,\le\right)$는 분명히 totally ordered set은 아니다.
5353
따라서 $\left(\Pi,\le\right)$는 maximal의 존재는 보장되지만, maximum의 존재는 보장될 수 없다.
5454
하지만 이 경우에는 maximum이 보장된다.
55-
즉, 정책들의 최댓값, 혹은 최적 정책(optimal policy, $\pi^\ast$)의 존재가 보장된다.
55+
즉, 정책들의 최댓값, 혹은 최적 정책(optimal policy, $\pi^\ast$)의 존재한다.
5656
다시 말해, $\pi\le\pi^\ast$인 $\pi^\ast\in\Pi$가 존재한다. (Claim 1)
5757

5858
이것은 Sutton의 책에 언급만 되어있고 설명이나 증명이 있지는 않다.
@@ -69,7 +69,7 @@ $$v_\ast(s)=\max_{\pi\in\Pi}v_\pi(s)$$
6969
$$v_\pi (s)\le v_\ast(s)$$
7070

7171
가 성립한다.
72-
$v_\ast$에 대응하는 함수 $q_\ast$를 (e3.13)와 비슷하게 다음과 같이
72+
$v_\ast$에 대응하는 함수 $q_\ast$를 (e3.13)와 비슷하게
7373

7474
$$q_\ast(s,a)=\sum_{r,s'}p(r,s'|s,a)(r+\gamma v_\ast(s'))$$
7575

@@ -90,19 +90,19 @@ $$
9090
이기 때문이다.
9191
이제 이로부터 최적정책 $\pi^\ast$를 greedy하게 정의한다.
9292
$q$함수가 주어졌으니, 주어진 $s$에 대해서 $q$값이 가장 큰 action(들)을 다 더해서 1이 되도록 양의 확률을 주고 나머지 경우는 모두 0으로 주는 것이다.
93-
예를 들어, $\pi(a|s)=\\{a'\in A:q_\ast(s,a')=\max_{\pi\in\Pi}q_\pi(s,a)\\}$ 로 두고
93+
예를 들어, $A_s=\\{a'\in A:q_\ast(s,a')=\max_{\pi\in\Pi}q_\pi(s,a)\\}$ 로 두고
9494

9595
$$
9696
\begin{align*}
9797
\pi^\ast(a|s) =
9898
\begin{cases}
99-
\frac1{\left|A\right|}&a\in A\\
100-
0 &a\notin A\\
99+
\frac1{\left|A_s\right|}&a\in A_s\\
100+
0 &a\notin A_s\\
101101
\end{cases}
102102
\end{align*}
103103
$$
104104

105-
로 할 수도 있고, 아니면 $q_\ast(s,a_\ast)=\max_{\pi\in\Pi}q_\pi(s,a)$를 만족시키는 action $a_\ast$에 대하여
105+
로 할 수도 있고, 아니면 $q_\ast(s,a_\ast)=\max_{\pi\in\Pi}q_\pi(s,a)$를 만족시키는 action $a_\ast$에 대하여
106106

107107
$$
108108
\begin{align*}
@@ -116,16 +116,18 @@ $$
116116

117117
로 둘 수도 있는 것이다.
118118
<!-- 두번째 경우를 $\pi^\ast$로 사용하자. -->
119-
그러면
119+
그러면 모든 $\pi\in\Pi$에 대하여
120120

121121
$$
122122
\begin{align*}
123123
v_\pi(s)
124124
&=\sum_{a\in\mathcal A}\pi(a|s)q_\pi(s,a),\\
125+
&=q_{\pi_\ast}(s,a)\\
125126
&\le\sum_{a\in\mathcal A}\pi^\ast(a|s)q_{\pi_\ast}(s,a),\\
126127
&=q_\pi(s,a')\\
127128
&=v_{\pi^\ast}(s)
128129
\end{align*}
129130
$$
130131

131-
이다.
132+
이다.
133+
따라서 Claim 1이 증명되었다.

0 commit comments

Comments
 (0)