@@ -23,11 +23,11 @@ toc: true
23
23
Sutton은 컴퓨터공학자라고 한다.
24
24
첫 회사에서 만난, Texas A&M 대학교에서 석박통합과정으로 공부하고 있다는 컴공출신 분이, 어떤 사람이 '수학을 잘한다'라는 표현을 썼었다.
25
25
그 분에게는 아무 말도 하지 않았지만 '수학을 잘한다'는 것에 대한 말의 의미에 대해 한참동안 고민했다.
26
- 미적분이나 선형대수, 해석학이나 집합론, 위상수학과 측도론, 확률론 등의 기본 개념들에 대해 깊이 이해하고 그 원리를 명확하게 알려고 노력하는 것을 그 말한 분이 얼마나 해봤을까, 하고 생각했다.
26
+ 미적분이나 선형대수, 해석학이나 집합론, 위상수학과 대수학, 측도론과 확률론 등의 기본 개념들에 대해 깊이 이해하고 그 원리를 명확하게 알려고 노력하는 것을 그 말한 분이 얼마나 해봤을까, 하고 생각했다.
27
27
아마도 baby rudin 정도의 엄밀한 reasoning을 따라가본 적은 없을 것도 같은데.
28
28
보통 컴퓨터공학을 전공한 분들이 말하는 '수학을 잘한다', '머리가 좋다'는 건 어떤 개념일까, 하는 의문은 이쪽 업계에 있으면서 자주 든다.
29
29
새로 부임하셨던, 컴퓨터공학 출신의 교수님이 수학에 대해 포괄적으로 논하는 것도 들었지만, 글쎄, 내가 범접할 수 없는 천재라면 모를까 수학은 그렇게 쉽게 정복될 수 있는 대상이 아니라는 생각이다.
30
- 같이 일했던 어떤 분도 '수학을 잘하면 인공지능으로 돈을 많이 벌 수 있다'고 쉽게 말한 적이 있는데, 그분은 미적분도 잘 이해하지 못하실 것 같은데 어떤 의미로 그런 말씀을 하신 것인지 의아해 했던 적도 있다.
30
+ 직전 직장에서 같이 일했던 어떤 분도 '수학을 잘하면 인공지능으로 돈을 많이 벌 수 있다'고 쉽게 말한 적이 있는데, 그분은 미적분도 잘 이해하지 못하실 것 같은데 어떤 의미로 그런 말씀을 하신 것인지 의아해 했던 적도 있다.
31
31
32
32
말이 길었는데, 나는 Sutton은 컴퓨터공학자임에도 불구하고 수학을 잘 아는 사람이라고 쓰려고 했다.
33
33
그 근거는 어떤 정책이 더 나은 정책이며, 가장 좋은 정책인 최적정책을 정의하는 데에 집합론의 partial ordering을 쓰고 있기 때문이다.
@@ -52,7 +52,7 @@ $$v_\pi(s)\le v_{\pi'}(s)$$
52
52
$\left(\Pi,\le\right)$는 분명히 totally ordered set은 아니다.
53
53
따라서 $\left(\Pi,\le\right)$는 maximal의 존재는 보장되지만, maximum의 존재는 보장될 수 없다.
54
54
하지만 이 경우에는 maximum이 보장된다.
55
- 즉, 정책들의 최댓값, 혹은 최적 정책(optimal policy, $\pi^\ast$)의 존재가 보장된다 .
55
+ 즉, 정책들의 최댓값, 혹은 최적 정책(optimal policy, $\pi^\ast$)의 존재한다 .
56
56
다시 말해, $\pi\le\pi^\ast$인 $\pi^\ast\in\Pi$가 존재한다. (Claim 1)
57
57
58
58
이것은 Sutton의 책에 언급만 되어있고 설명이나 증명이 있지는 않다.
@@ -69,7 +69,7 @@ $$v_\ast(s)=\max_{\pi\in\Pi}v_\pi(s)$$
69
69
$$ v_\pi (s)\le v_\ast(s) $$
70
70
71
71
가 성립한다.
72
- $v_ \ast$에 대응하는 함수 $q_ \ast$를 (e3.13)와 비슷하게 다음과 같이
72
+ $v_ \ast$에 대응하는 함수 $q_ \ast$를 (e3.13)와 비슷하게
73
73
74
74
$$ q_\ast(s,a)=\sum_{r,s'}p(r,s'|s,a)(r+\gamma v_\ast(s')) $$
75
75
90
90
이기 때문이다.
91
91
이제 이로부터 최적정책 $\pi^\ast$를 greedy하게 정의한다.
92
92
$q$함수가 주어졌으니, 주어진 $s$에 대해서 $q$값이 가장 큰 action(들)을 다 더해서 1이 되도록 양의 확률을 주고 나머지 경우는 모두 0으로 주는 것이다.
93
- 예를 들어, $\pi(a|s) =\\ {a'\in A: q_ \ast(s,a')=\max_ {\pi\in\Pi}q_ \pi(s,a)\\ }$ 로 두고
93
+ 예를 들어, $A_s =\\ {a'\in A: q_ \ast(s,a')=\max_ {\pi\in\Pi}q_ \pi(s,a)\\ }$ 로 두고
94
94
95
95
$$
96
96
\begin{align*}
97
97
\pi^\ast(a|s) =
98
98
\begin{cases}
99
- \frac1{\left|A \right|}&a\in A \\
100
- 0 &a\notin A \\
99
+ \frac1{\left|A_s \right|}&a\in A_s \\
100
+ 0 &a\notin A_s \\
101
101
\end{cases}
102
102
\end{align*}
103
103
$$
104
104
105
- 로 할 수도 있고, 아니면 $q_ \ast(s,a_ \ast)=\max_ {\pi\in\Pi}q_ \pi(s,a)$를 만족시키는 action $a_ \ast$에 대하여
105
+ 로 할 수도 있고, 아니면 $q_ \ast(s,a_ \ast)=\max_ {\pi\in\Pi}q_ \pi(s,a)$를 만족시키는 action $a_ \ast$에 대하여
106
106
107
107
$$
108
108
\begin{align*}
116
116
117
117
로 둘 수도 있는 것이다.
118
118
<!-- 두번째 경우를 $\pi^\ast$로 사용하자. -->
119
- 그러면
119
+ 그러면 모든 $\pi\in\Pi$에 대하여
120
120
121
121
$$
122
122
\begin{align*}
123
123
v_\pi(s)
124
124
&=\sum_{a\in\mathcal A}\pi(a|s)q_\pi(s,a),\\
125
+ &=q_{\pi_\ast}(s,a)\\
125
126
&\le\sum_{a\in\mathcal A}\pi^\ast(a|s)q_{\pi_\ast}(s,a),\\
126
127
&=q_\pi(s,a')\\
127
128
&=v_{\pi^\ast}(s)
128
129
\end{align*}
129
130
$$
130
131
131
- 이다.
132
+ 이다.
133
+ 따라서 Claim 1이 증명되었다.
0 commit comments