西湖大学赵世钰老师的【强化学习的数学原理】课程简略课堂笔记

本仓库存放本人第二遍学习赵世钰老师强化学习课程的记录与心得。

赵世钰老师【强化学习的数学原理】课程视频：https://www.bilibili.com/video/BV1sd4y167NS

第一次更新日期：2024.10.29

二更：感觉RL实际应用下来，最难的还是设计reward。等我明天看一篇基于RL解决vln的论文再研究一下。

更新完毕日期：2024.10.30

两天快速复习完了强化学习，接下来准备直接看篇CMA论文(Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation)直接实战

2024.10.31update:CMA已看完，学到不少东西，果然还得是实战。论文精读分析我已放到vln仓库。

分隔线

简单总结下这门课介绍的方法：

model-base：对环境完全掌握，例如：给定s，a，知道下个状态的概率分布；给定s，a，知道获得reward的概率分布。此时可直接套用bellman equation评估策略，或者套用bellman optimality equation直接求出最优策略。

接下来所有算法全部都是model-free

Monte Carlo：根据数据集episode，由公式 $$ q_{\pi}=r_t+r_{t+1}+r_{t+2}+r_{t+3}+... $$ 估算action value，然后根据action value更新greedy policy，再多次迭代求得最优解

temporal-difference learning：根据TD公式模板更新state/action value，多次迭代，最终求得给定策略下的state/action value，也就是策略评估。唯一例外的Q-learning，多次迭代后可直接求得optimal action value。

接下来要对各种离散的形式推广到连续空间

value function approximation：将离散state/action value的值用state/action function表示，用梯度下降更新参数。可以和temporal-difference learning结合进行策略评估。另外，Deep Q-learning可以直接求得optimal action value。

policy gradient：将离散policy的值用function表示，其中梯度上升时需要用到真实action value，可以用估计值近似，有Monte Carlo和TD两种估计方法。使用policy gradient可直接求得最优策略，但却是on policy。

actor critic：在policy gradient中用TD估计action value，就得到了最简单的actor critic。可以引入baseline减小更新policy时梯度上升的梯度方差。使用importance sampling可将on policy改进为off policy。推广到无限的动作空间，就可以得到deterministic actor critic。

总结：环环相扣的方法介绍，从离散一步一步推广到连续。值得反复学习。

Name		Name	Last commit message	Last commit date
Latest commit History 30 Commits
assets		assets
pdf-note		pdf-note
Book-all-in-one.pdf		Book-all-in-one.pdf
README.md		README.md
第七课 temporal-difference learning.md		第七课 temporal-difference learning.md
第三课 bellman optimality equation(BOE).md		第三课 bellman optimality equation(BOE).md
第九课 policy gradient.md		第九课 policy gradient.md
第二课 bellman equation.md		第二课 bellman equation.md
第五课 monte carlo.md		第五课 monte carlo.md
第八课 value function approximation.md		第八课 value function approximation.md
第六课 stochastic approximation.md		第六课 stochastic approximation.md
第十课 actor critic.md		第十课 actor critic.md
第四课 value iteration & policy iteration.md		第四课 value iteration & policy iteration.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

西湖大学赵世钰老师的【强化学习的数学原理】课程简略课堂笔记

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

madeline-past/reinforcement_learning

Folders and files

Latest commit

History

Repository files navigation

西湖大学赵世钰老师的【强化学习的数学原理】课程简略课堂笔记

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Packages