Skip to content

Commit 7aa7aa5

Browse files
committed
last modifications
1 parent 62d6ffe commit 7aa7aa5

File tree

1 file changed

+23
-4
lines changed

1 file changed

+23
-4
lines changed

_posts/2025-08-20-policy_evaluation.md

Lines changed: 23 additions & 4 deletions
Original file line numberDiff line numberDiff line change
@@ -1,6 +1,6 @@
11
---
22
layout: single
3-
title: "Policy Evaluation"
3+
title: "Policy Evaluation과 Contraction Principle"
44
categories: machine learning
55
tags: [linear algebra, matrix]
66
use_math: true
@@ -24,6 +24,25 @@ TD가 dynamic programing과 Monte Carlo의 절충이라고 할 때, 그렇다면
2424
3장에서는 늘 그렇듯 가장 중요하면서 조금 어려운 것이 Bellman equation 네 개 (v, q, optimal v, optimal q)인데 그걸 다시 보았다.
2525
다 이해하지는 못했고, 그래도 (ordinary) Bellman equation 두 개는 이해했다.
2626

27-
그러니 4장의 Dynamic Programming 내용이 더 잘 보이기 시작했다.
28-
여기서 설명하는 방법론들은 강화학습 전반에 사용되는 방법론이기 때문에 중요했다.
29-
Dynamic Programming의 핵심이 되는 두 방법 중
27+
그러니 4장의 DP 내용이 더 잘 보이기 시작했다.
28+
여기서 설명하는 방법론들은 강화학습 전반에 사용되는 방법론이기 때문에 중요하다.
29+
DP의 핵심이 되는 policy iteration의 두 방법 policy evaluation과 policy improvement 중 policy iteration을 보다가 의문이 생겼다.
30+
저렇게 iterative한 방법을 통해 value function을 결정하는데, 그게 맞는 것인가.
31+
수렴하는 게 맞는 것인가?
32+
수렴한다면 옳은 값으로 수렴하는 게 맞는 것인가?
33+
34+
의문이 들어 인터넷을 검색해보니 나와 같은 의문을 가진 사람이 질문했고, likes를 가장 많이 받은 답변자는 Bellman operator를 contraction mapping으로 보아 contraction principle을 통해 증명했다.
35+
그래서 이에 관해 정리해보려 한다.
36+
37+
Bellman operator에 관해서는 답변자가 쓴 대로 vector space를 쓸 필요는 없을 것 같다.
38+
contraction principle은 어디서 본 것 같았다, 아마 Munkres의 Topology 책에서였던 것 같아 Topology 책을 뒤져보니 이때 나왔던 contraction과 fixed point는 $B^2$에서의 특수한 이야기였다.
39+
대학원때 봤던 Rudin의 Real and Complex Analysis에서 Banach의 이름이 붙은 theorem이 있었던 것 같았는데 찾아보니 아니었다.
40+
baby rudin을 보니 contraction principle이 본문에 떡하니 있었고 (왜 나는 그걸 기억하지 못하는가.) 정확히 해당 증명에 필요한 정리가 있었다.
41+
사실 Munkres의 책에도 비슷한 정리가 있었지만 baby rudin에서의 설명이 더 쉬웠다.
42+
정확하게는 baby rudin에서는 metric space에서의 증명을 하고 있었고 그 증명은 간결했다.
43+
Munkres의 책에서는 꼭 metric space일 필요가 없는 상황에서 특정한 위상조건들이 주어졌을 때 contraction principle이 주어져있었고, 증명이 어려워보였기에 읽지 않았다.
44+
45+
그러니, 아마 MDP에 대한 간략한 설명과 더불어 bellman equation (and bellman optimal equation) for value function $v$, policy evaluation, contraction principle, fixed point, Bellman operator 등의 내용이 이 포스트에 쓰일 것 같다.
46+
47+
사실 이 블로그를 시작하게 된 건 머신러닝에 관한 여러 사항들을 정리하고 싶어서였다.
48+
그런데 머신러닝보다는 수학을 좋아하는지라 제대로 된 머신러닝 글이 거의 없었는데 이번에 쓰게 되지 않을까 싶다.

0 commit comments

Comments
 (0)