第三章润色版本更新

wgyhhhh · wgyhhhh · commit 69ba8beb0664 · 2025-10-23T00:36:52.000+08:00
diff --git a/.history/README_20251022005720.md b/.history/README_20251022005720.md
@@ -0,0 +1,37 @@
+<div align="center">
+  <p><a href="https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Preface1/">📚 在线阅读地址</a></p>
+  <h3>🤖 《强化学习中的数学原理》-个人笔记与思考总结</h3>
+  <p><em>理解强化学习的数学原理，并通过实例深入掌握核心算法</em></p>
+</div>
+
+## 🎯 笔记介绍
+
+&emsp;&emsp;本笔记是对赵世钰老师所著《强化学习中的数学原理》的个人思考与总结，**笔者将其做成了网页模式，方便大家随时随地在掌上设备阅读**。在此基础上，我还补充了对书中核心算法的实现，以便读者能获得更直观的理解。书中首先从基础概念入手，讲解Bellman公式和Bellman最优公式，接着扩展到基于模型（model-based）和无模型（model-free）的强化学习算法，最终推广到基于函数逼近的强化学习算法。若读者在强化学习方面没有背景知识，只需具备一定的线性代数和概率论基础即可阅读本书。而对于已有一些强化学习知识的读者，本笔记则可以帮助他们深入理解相关问题。
+
+## 📖 内容导航
+
+| 章节 | 关键内容 | 状态 |
+| --- | --- | --- |
+| [前言](https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Preface1/) | 本笔记的缘起、背景及阅读建议 | ✅ |
+| [第一章 基本概念](https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Chapter-1/intro/) | 强化学习的基本概念 | ✅ |
+| [第二章 状态值与贝尔曼方程](https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Chapter-2/intro/) | 回报、状态值、Bellman方程 | ✅ |
+| [第三章 最优状态值与贝尔曼最优方程](https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Chapter-3/intro/) | 最优状态值、最优策略、Bellman最优方程 | ✅(润色中) |
+| [第四章 值迭代与策略迭代](https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Chapter-4/intro/) | 值迭代算法、策略迭代算法、截断策略迭代算法 | ✅(润色中) |
+| [第五章 蒙特卡罗方法](https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Chapter-5/intro/) | MC Basic、MC Exploring Starts、MC-Greedy | ✅(润色中) |
+| [第六章 随机近似算法](https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Chapter-6/intro/) | Robbins-Monro算法、Dvoretzky定理、随机梯度下降 | ✅(润色中) |
+| [第七章 时序差分算法](https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Chapter-7/intro/) | Sarsa、n步Sarsa、Q-learning、 Off-policy、On-policy| ✅(润色中) |
+| [第八章 值函数方法](https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Chapter-8/intro/) | 基于值函数的TD算法、Sarsa、Q-learning | ✅(润色中) |
+| [第九章 策略梯度方法](https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Chapter-9/intro/) | 策略梯度、REINFORCE | ✅(润色中) |
+| [第十章 演员-评论家算法](https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Chapter-10/intro/) | 优势演员-评论家、异策略演员-评论家、确定性演员-评论家 | ✅(润色中) |
+| 算法实现详解 | 核心算法Python实现 | 🚧 |
+
+### 🚧 算法实现详解
+
+笔者正在使用Python实现本书中的部分核心算法，读者可以通过结合阅读，获得更直观的理解。
+
+## 🤝 如何贡献
+
+如果你对强化学习感兴趣，可以参与到该笔记的完善中！❤️
+
+- 💡**内容完善** - 帮助改进笔记内容
+- 📝**报告问题** - 发现问题请提交 Issue
diff --git a/.history/README_20251023003641.md b/.history/README_20251023003641.md
@@ -0,0 +1,37 @@
+<div align="center">
+  <p><a href="https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Preface1/">📚 在线阅读地址</a></p>
+  <h3>🤖 《强化学习中的数学原理》-个人笔记与思考总结</h3>
+  <p><em>理解强化学习的数学原理，并通过实例深入掌握核心算法</em></p>
+</div>
+
+## 🎯 笔记介绍
+
+&emsp;&emsp;本笔记是对赵世钰老师所著《强化学习中的数学原理》的个人思考与总结，**笔者将其做成了网页模式，方便大家随时随地在掌上设备阅读**。在此基础上，我还补充了对书中核心算法的实现，以便读者能获得更直观的理解。书中首先从基础概念入手，讲解Bellman公式和Bellman最优公式，接着扩展到基于模型（model-based）和无模型（model-free）的强化学习算法，最终推广到基于函数逼近的强化学习算法。若读者在强化学习方面没有背景知识，只需具备一定的线性代数和概率论基础即可阅读本书。而对于已有一些强化学习知识的读者，本笔记则可以帮助他们深入理解相关问题。
+
+## 📖 内容导航
+
+| 章节 | 关键内容 | 状态 |
+| --- | --- | --- |
+| [前言](https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Preface1/) | 本笔记的缘起、背景及阅读建议 | ✅ |
+| [第一章 基本概念](https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Chapter-1/intro/) | 强化学习的基本概念 | ✅ |
+| [第二章 状态值与贝尔曼方程](https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Chapter-2/intro/) | 回报、状态值、Bellman方程 | ✅ |
+| [第三章 最优状态值与贝尔曼最优方程](https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Chapter-3/intro/) | 最优状态值、最优策略、Bellman最优方程 | ✅ |
+| [第四章 值迭代与策略迭代](https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Chapter-4/intro/) | 值迭代算法、策略迭代算法、截断策略迭代算法 | ✅(润色中) |
+| [第五章 蒙特卡罗方法](https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Chapter-5/intro/) | MC Basic、MC Exploring Starts、MC-Greedy | ✅(润色中) |
+| [第六章 随机近似算法](https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Chapter-6/intro/) | Robbins-Monro算法、Dvoretzky定理、随机梯度下降 | ✅(润色中) |
+| [第七章 时序差分算法](https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Chapter-7/intro/) | Sarsa、n步Sarsa、Q-learning、 Off-policy、On-policy| ✅(润色中) |
+| [第八章 值函数方法](https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Chapter-8/intro/) | 基于值函数的TD算法、Sarsa、Q-learning | ✅(润色中) |
+| [第九章 策略梯度方法](https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Chapter-9/intro/) | 策略梯度、REINFORCE | ✅(润色中) |
+| [第十章 演员-评论家算法](https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Chapter-10/intro/) | 优势演员-评论家、异策略演员-评论家、确定性演员-评论家 | ✅(润色中) |
+| 算法实现详解 | 核心算法Python实现 | 🚧 |
+
+### 🚧 算法实现详解
+
+笔者正在使用Python实现本书中的部分核心算法，读者可以通过结合阅读，获得更直观的理解。
+
+## 🤝 如何贡献
+
+如果你对强化学习感兴趣，可以参与到该笔记的完善中！❤️
+
+- 💡**内容完善** - 帮助改进笔记内容
+- 📝**报告问题** - 发现问题请提交 Issue
diff --git a/README.md b/README.md
@@ -15,7 +15,7 @@
 | [前言](https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Preface1/) | 本笔记的缘起、背景及阅读建议 | ✅ |
 | [第一章 基本概念](https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Chapter-1/intro/) | 强化学习的基本概念 | ✅ |
 | [第二章 状态值与贝尔曼方程](https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Chapter-2/intro/) | 回报、状态值、Bellman方程 | ✅ |
-| [第三章 最优状态值与贝尔曼最优方程](https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Chapter-3/intro/) | 最优状态值、最优策略、Bellman最优方程 | ✅(润色中) |
+| [第三章 最优状态值与贝尔曼最优方程](https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Chapter-3/intro/) | 最优状态值、最优策略、Bellman最优方程 | ✅ |
 | [第四章 值迭代与策略迭代](https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Chapter-4/intro/) | 值迭代算法、策略迭代算法、截断策略迭代算法 | ✅(润色中) |
 | [第五章 蒙特卡罗方法](https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Chapter-5/intro/) | MC Basic、MC Exploring Starts、MC-Greedy | ✅(润色中) |
 | [第六章 随机近似算法](https://wgyhhhh.github.io/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Chapter-6/intro/) | Robbins-Monro算法、Dvoretzky定理、随机梯度下降 | ✅(润色中) |