File tree Expand file tree Collapse file tree
Expand file tree Collapse file tree Original file line number Diff line number Diff line change 1+ <div align =" center " >
2+ <p ><a href =" https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Preface1/ " >📚 在线阅读地址</a ></p >
3+ <h3 >🤖 《强化学习中的数学原理》-个人笔记与思考总结</h3 >
4+ <p ><em >理解强化学习的数学原理,并通过实例深入掌握核心算法</em ></p >
5+ </div >
6+
7+ ## 🎯 笔记介绍
8+
9+ &emsp ;&emsp ; 本笔记是对赵世钰老师所著《强化学习中的数学原理》的个人思考与总结,** 笔者将其做成了网页模式,方便大家随时随地在掌上设备阅读** 。在此基础上,我还补充了对书中核心算法的实现,以便读者能获得更直观的理解。书中首先从基础概念入手,讲解Bellman公式和Bellman最优公式,接着扩展到基于模型(model-based)和无模型(model-free)的强化学习算法,最终推广到基于函数逼近的强化学习算法。若读者在强化学习方面没有背景知识,只需具备一定的线性代数和概率论基础即可阅读本书。而对于已有一些强化学习知识的读者,本笔记则可以帮助他们深入理解相关问题。
10+
11+ ## 📖 内容导航
12+
13+ | 章节 | 关键内容 | 状态 |
14+ | --- | --- | --- |
15+ | [ 前言] ( https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Preface1/ ) | 本笔记的缘起、背景及阅读建议 | ✅ |
16+ | [ 第一章 基本概念] ( https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Chapter-1/intro/ ) | 强化学习的基本概念 | ✅ |
17+ | [ 第二章 状态值与贝尔曼方程] ( https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Chapter-2/intro/ ) | 回报、状态值、Bellman方程 | ✅ |
18+ | [ 第三章 最优状态值与贝尔曼最优方程] ( https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Chapter-3/intro/ ) | 最优状态值、最优策略、Bellman最优方程 | ✅(润色中) |
19+ | [ 第四章 值迭代与策略迭代] ( https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Chapter-4/intro/ ) | 值迭代算法、策略迭代算法、截断策略迭代算法 | ✅(润色中) |
20+ | [ 第五章 蒙特卡罗方法] ( https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Chapter-5/intro/ ) | MC Basic、MC Exploring Starts、MC-Greedy | ✅(润色中) |
21+ | [ 第六章 随机近似算法] ( https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Chapter-6/intro/ ) | Robbins-Monro算法、Dvoretzky定理、随机梯度下降 | ✅(润色中) |
22+ | [ 第七章 时序差分算法] ( https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Chapter-7/intro/ ) | Sarsa、n步Sarsa、Q-learning、 Off-policy、On-policy| ✅(润色中) |
23+ | [ 第八章 值函数方法] ( https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Chapter-8/intro/ ) | 基于值函数的TD算法、Sarsa、Q-learning | ✅(润色中) |
24+ | [ 第九章 策略梯度方法] ( https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Chapter-9/intro/ ) | 策略梯度、REINFORCE | ✅(润色中) |
25+ | [ 第十章 演员-评论家算法] ( https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Chapter-10/intro/ ) | 优势演员-评论家、异策略演员-评论家、确定性演员-评论家 | ✅(润色中) |
26+ | 算法实现详解 | 核心算法Python实现 | 🚧 |
27+
28+ ### 🚧 算法实现详解
29+
30+ 笔者正在使用Python实现本书中的部分核心算法,读者可以通过结合阅读,获得更直观的理解。
31+
32+ ## 🤝 如何贡献
33+
34+ 如果你对强化学习感兴趣,可以参与到该笔记的完善中!❤️
35+
36+ - 💡** 内容完善** - 帮助改进笔记内容
37+ - 📝** 报告问题** - 发现问题请提交 Issue
Original file line number Diff line number Diff line change 1+ <div align =" center " >
2+ <p ><a href =" https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Preface1/ " >📚 在线阅读地址</a ></p >
3+ <h3 >🤖 《强化学习中的数学原理》-个人笔记与思考总结</h3 >
4+ <p ><em >理解强化学习的数学原理,并通过实例深入掌握核心算法</em ></p >
5+ </div >
6+
7+ ## 🎯 笔记介绍
8+
9+ &emsp ;&emsp ; 本笔记是对赵世钰老师所著《强化学习中的数学原理》的个人思考与总结,** 笔者将其做成了网页模式,方便大家随时随地在掌上设备阅读** 。在此基础上,我还补充了对书中核心算法的实现,以便读者能获得更直观的理解。书中首先从基础概念入手,讲解Bellman公式和Bellman最优公式,接着扩展到基于模型(model-based)和无模型(model-free)的强化学习算法,最终推广到基于函数逼近的强化学习算法。若读者在强化学习方面没有背景知识,只需具备一定的线性代数和概率论基础即可阅读本书。而对于已有一些强化学习知识的读者,本笔记则可以帮助他们深入理解相关问题。
10+
11+ ## 📖 内容导航
12+
13+ | 章节 | 关键内容 | 状态 |
14+ | --- | --- | --- |
15+ | [ 前言] ( https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Preface1/ ) | 本笔记的缘起、背景及阅读建议 | ✅ |
16+ | [ 第一章 基本概念] ( https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Chapter-1/intro/ ) | 强化学习的基本概念 | ✅ |
17+ | [ 第二章 状态值与贝尔曼方程] ( https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Chapter-2/intro/ ) | 回报、状态值、Bellman方程 | ✅ |
18+ | [ 第三章 最优状态值与贝尔曼最优方程] ( https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Chapter-3/intro/ ) | 最优状态值、最优策略、Bellman最优方程 | ✅ |
19+ | [ 第四章 值迭代与策略迭代] ( https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Chapter-4/intro/ ) | 值迭代算法、策略迭代算法、截断策略迭代算法 | ✅(润色中) |
20+ | [ 第五章 蒙特卡罗方法] ( https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Chapter-5/intro/ ) | MC Basic、MC Exploring Starts、MC-Greedy | ✅(润色中) |
21+ | [ 第六章 随机近似算法] ( https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Chapter-6/intro/ ) | Robbins-Monro算法、Dvoretzky定理、随机梯度下降 | ✅(润色中) |
22+ | [ 第七章 时序差分算法] ( https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Chapter-7/intro/ ) | Sarsa、n步Sarsa、Q-learning、 Off-policy、On-policy| ✅(润色中) |
23+ | [ 第八章 值函数方法] ( https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Chapter-8/intro/ ) | 基于值函数的TD算法、Sarsa、Q-learning | ✅(润色中) |
24+ | [ 第九章 策略梯度方法] ( https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Chapter-9/intro/ ) | 策略梯度、REINFORCE | ✅(润色中) |
25+ | [ 第十章 演员-评论家算法] ( https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Chapter-10/intro/ ) | 优势演员-评论家、异策略演员-评论家、确定性演员-评论家 | ✅(润色中) |
26+ | 算法实现详解 | 核心算法Python实现 | 🚧 |
27+
28+ ### 🚧 算法实现详解
29+
30+ 笔者正在使用Python实现本书中的部分核心算法,读者可以通过结合阅读,获得更直观的理解。
31+
32+ ## 🤝 如何贡献
33+
34+ 如果你对强化学习感兴趣,可以参与到该笔记的完善中!❤️
35+
36+ - 💡** 内容完善** - 帮助改进笔记内容
37+ - 📝** 报告问题** - 发现问题请提交 Issue
Original file line number Diff line number Diff line change 1515| [ 前言] ( https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Preface1/ ) | 本笔记的缘起、背景及阅读建议 | ✅ |
1616| [ 第一章 基本概念] ( https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Chapter-1/intro/ ) | 强化学习的基本概念 | ✅ |
1717| [ 第二章 状态值与贝尔曼方程] ( https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Chapter-2/intro/ ) | 回报、状态值、Bellman方程 | ✅ |
18- | [ 第三章 最优状态值与贝尔曼最优方程] ( https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Chapter-3/intro/ ) | 最优状态值、最优策略、Bellman最优方程 | ✅(润色中) |
18+ | [ 第三章 最优状态值与贝尔曼最优方程] ( https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Chapter-3/intro/ ) | 最优状态值、最优策略、Bellman最优方程 | ✅ |
1919| [ 第四章 值迭代与策略迭代] ( https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Chapter-4/intro/ ) | 值迭代算法、策略迭代算法、截断策略迭代算法 | ✅(润色中) |
2020| [ 第五章 蒙特卡罗方法] ( https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Chapter-5/intro/ ) | MC Basic、MC Exploring Starts、MC-Greedy | ✅(润色中) |
2121| [ 第六章 随机近似算法] ( https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Chapter-6/intro/ ) | Robbins-Monro算法、Dvoretzky定理、随机梯度下降 | ✅(润色中) |
You can’t perform that action at this time.
0 commit comments