GitHub - wgyhhhh/Mathematical-Foundations-of-Reinforcement-Learning-Notes: 《强化学习中的数学原理》笔记-个人学习的思考和补充

🚀 立即在线阅读

🤖 《强化学习中的数学原理》-个人笔记与思考总结

理解强化学习的数学原理，并通过实例深入掌握核心算法

🎯 笔记介绍

本笔记是对赵世钰老师所著《强化学习中的数学原理》的个人思考与总结，笔者将其做成了网页模式，方便大家随时随地在掌上设备阅读。在此基础上，我还补充了对书中核心算法的实现，以便读者能获得更直观的理解。书中首先从基础概念入手，讲解Bellman公式和Bellman最优公式，接着扩展到基于模型（model-based）和无模型（model-free）的强化学习算法，最终推广到基于函数逼近的强化学习算法。若读者在强化学习方面没有背景知识，只需具备一定的线性代数和概率论基础即可阅读本书。而对于已有一些强化学习知识背景的读者，本笔记则可以帮助深入理解相关问题。

📖 内容导航

章节	关键内容	状态
前言	本笔记的缘起、背景及阅读建议	✅
第一章基本概念	强化学习的基本概念	✅
第二章状态值与贝尔曼方程	回报、状态值、Bellman方程	✅
第三章最优状态值与贝尔曼最优方程	最优状态值、最优策略、Bellman最优方程	✅
第四章值迭代与策略迭代	值迭代算法、策略迭代算法、截断策略迭代算法	✅
第五章蒙特卡罗方法	MC Basic、MC Exploring Starts、MC-Greedy	✅
第六章随机近似算法	Robbins-Monro算法、Dvoretzky定理、随机梯度下降	✅
第七章时序差分算法	Sarsa、n步Sarsa、Q-learning、 Off-policy、On-policy	✅
第八章值函数方法	基于值函数的TD算法、Sarsa、Q-learning	✅
第九章策略梯度方法	策略梯度、REINFORCE	✅
第十章演员-评论家算法	优势演员-评论家、异策略演员-评论家、确定性演员-评论家	✅
算法实现详解	核心算法Python实现	🚧

🚧 算法实现详解

笔者正在使用Python实现本书中的部分核心算法，读者可以通过结合阅读，获得更直观的理解。同时笔者正在同步实现近年来RL4LLM的一些算法理论知识和代码复现的讲解。

🤝 如何贡献

如果你对强化学习感兴趣，可以参与到该笔记的完善中！❤️

💡内容完善 - 帮助改进笔记内容
📝报告问题 - 发现问题请提交 Issue

Name		Name	Last commit message	Last commit date
Latest commit History 59 Commits
.github/workflows		.github/workflows
.history		.history
docs		docs
site		site
LICENSE		LICENSE
README.md		README.md
mkdocs.yml		mkdocs.yml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

🚀 立即在线阅读

🤖 《强化学习中的数学原理》-个人笔记与思考总结

🎯 笔记介绍

📖 内容导航

🚧 算法实现详解

🤝 如何贡献

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

🚀 立即在线阅读

🤖 《强化学习中的数学原理》-个人笔记与思考总结

🎯 笔记介绍

📖 内容导航

🚧 算法实现详解

🤝 如何贡献

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages