第三章前两节润色版本更新

wgyhhhh · wgyhhhh · commit b20711ad38b1 · 2025-10-22T00:56:55.000+08:00
diff --git a/.history/docs/Chapter-3/3-1_20251022005058.md b/.history/docs/Chapter-3/3-1_20251022005058.md
@@ -0,0 +1,46 @@
+## 3.1 启发示例：如何改进策略？
+
+考虑图$3.2$中的示例，其中橙色和蓝色单元格分别表示禁止区域和目标区域。图中的箭头代表一个给定的策略。这里的策略从直观上来说不好，因为它在状态$s_1$中选择了$a_2$(向右移动)，从而进入禁止区域。那么我们能否改进这个策略进而得到一个更好的策略呢？答案是可以的。下面通过一个例子来介绍改进策略的思路。
+
+ ![](../img/03/1.png)
+ > 图3.2: 一个用于展示策略改进的例子。
+
+
+- 第一，直觉告诉我们：如果我们在$s_1$处选择$a_3$(向下)而不是$a_2$(向右)，则策略会更好。这是因为向下移动能够使智能体避免进入禁区。
+- 第二，从数学上，上面的直觉可以通过计算状态值和行动值来得到验证。
+
+首先，计算给定策略的状态值。根据第2章的内容，不难写出该策略的贝尔曼方程是：
+
+$$\begin{aligned}
+v_{\pi}(s_1) &= -1 + \gamma v_{\pi}(s_2), \\
+v_{\pi}(s_2) &= 1 + \gamma v_{\pi}(s_4), \\
+v_{\pi}(s_3) &= 1 + \gamma v_{\pi}(s_4), \\
+v_{\pi}(s_4) &= 1 + \gamma v_{\pi}(s_4).
+\end{aligned}$$
+
+如果设$\gamma=0.9$，可以求出：
+
+$$\begin{aligned}
+    v_\pi(s_4)&=v_\pi(s_3)=v_\pi(s_2)=10,\\
+    v_\pi(s_1)&=8
+\end{aligned}$$
+
+然后，计算给定策略下的行动值。针对状态$s_1$，其对应的动作值为：
+
+$$\begin{aligned}
+    &q_{\pi}(s_1, a_1) = -1 + \gamma v_{\pi}(s_1) = 6.2, \\
+&q_{\pi}(s_1, a_2) = -1 + \gamma v_{\pi}(s_2) = 8, \\
+&q_{\pi}(s_1, a_3) = 0 + \gamma v_{\pi}(s_3) = 9, \\
+&q_{\pi}(s_1, a_4) = -1 + \gamma v_{\pi}(s_1) = 6.2, \\
+&q_{\pi}(s_1, a_5) = 0 + \gamma v_{\pi}(s_1) = 7.2.
+\end{aligned}$$
+
+上式表明行动$a_3$具有最大的行动值，即：
+
+$$q_{\pi}(s_1, a_3) \geq q_{\pi}(s_1, a_i), \quad \text{for all } i \neq 3.$$
+
+因此为了得到更大的回报，新的策略应该在状态$s_1$选择$a_2$。
+
+这个例子说明了：如果我们更新策略从而使之选择具有最大行动值的行动，就可以获得更好的策略。
+
+这个例子非常简单，因为给定的策略只对状态$s_1$不利。如果策略对其他状态也不利，那么在$s_1$选择最大行动值的行动能否得到更好的策略呢？此外还有很多问题，是否总存在最优策略？最优政策是什么样的？我们将在本章中回答这些问题。
diff --git a/.history/docs/Chapter-3/3-2_20251022005618.md b/.history/docs/Chapter-3/3-2_20251022005618.md
@@ -0,0 +1,22 @@
+## 3.2 最优状态值和最优策略
+
+首先我们定义什么是**最优策略** (optimal policy)。
+
+
+考虑两个给定的策略$\pi_1$和$\pi_2$。如果对于任何状态$s\in \mathcal{S}$，$\pi_1$的状态值都大于或等于$\pi_2$的状态值，即：
+
+$$v_{\pi_1}(s) \geq v_{\pi_2}(s), \quad \text{for all } s \in S.$$
+
+那么$\pi_1$就比$\pi_2$好。而如果一个策略优于所有其他可能的策略，则该策略是最优的，其正式定义如下所述。
+
+**定义3.1**(最优策略和最优状态值)。考虑策略$\pi^*$，如果对任意$s\in \mathcal{S}$和其他任意策略$\pi$，$v_{\pi^*}(s)\geq v_\pi(s)$，那么$\pi^*$是一个最优策略，并且$\pi^*$对应的状态值是最优状态值。
+
+上面的定义表明，一个最优策略在每一个状态都有比其他策略更高的状态值。这个定义也引出了很多问题：
+
+- 存在性：这样的最优策略是否存在？
+- 唯一性：这样的最优策略是唯一的吗？
+- 随机性：最优策略是随机性的还是确定性的？
+- 算法：什么算法能够获得最优策略和最优状态值？
+
+这借个问题非常重要。如果最优策略不存在，那么我们就不需要费心设计算法来找到它们。我们将在本章的剩余部分回答所有这些问题。
+  
diff --git a/.history/docs/Chapter-3/intro_20251022004223.md b/.history/docs/Chapter-3/intro_20251022004223.md
@@ -0,0 +1,9 @@
+强化学习的最终目标是寻找**最优策略**。因此，最优策略是强化学习中非常基础且重要的概念。本章将介绍一个重要概念和一个核心工具：这个核心概念是**最优状态值**，基于此，我们可以定义**最优策略**：这个核心工具是**贝尔曼最优方程**，基于此，我们可以求解最优状态值和最优策略。
+
+本章与前后两张关系密切：第2章中我们介绍了贝尔曼方程，本章将要介绍的贝尔曼最优方程是一个特殊的贝尔曼方程；第3章将介绍的“值迭代”算法就用于求解本章介绍的贝尔曼最优方程。因此，本章起到了承上启下的关键作用。
+
+本章的数学内容相较于前两章会稍微多一些，读者可能需要更加耐心地学习，多花一点时间也是值得的。因为这些数学内容对于透彻理解后面章节的内容至关重要。此外，这些数学内容以合理的方式呈现了出来，详细大家只要耐心学习，就不会觉得特别困难。
+ 
+ 
+ ![](../img/chapter/chapter-2.png)
+ > 图$3.1$: 本章在全书中的位置。
diff --git a/docs/Chapter-3/3-1.md b/docs/Chapter-3/3-1.md
@@ -1,14 +1,15 @@
-## 3.1 例子：如何改进策略？
+## 3.1 启发示例：如何改进策略？
+
+考虑图$3.2$中的示例，其中橙色和蓝色单元格分别表示禁止区域和目标区域。图中的箭头代表一个给定的策略。这里的策略从直观上来说不好，因为它在状态$s_1$中选择了$a_2$(向右移动)，从而进入禁止区域。那么我们能否改进这个策略进而得到一个更好的策略呢？答案是可以的。下面通过一个例子来介绍改进策略的思路。
 
  ![](../img/03/1.png)
- > 图3.2: 一个展示策略改进的例子。
+ > 图3.2: 一个用于展示策略改进的例子。
 
-考虑图3.2所示的策略。这里，橙色和蓝色单元格分别表示禁止区域和目标区域。这里的策略不好，因为它在状态$s_1$中选择了$a_2$(向右)。我们如何改进现有的策略，以获得更好的策略？答案在于状态值和行动值。
 
-- 直觉: 直觉上很清楚，如果在$s_1$处选择$a_3$(向下)而不是$a_2$(向下)，则策略可以改进。这是因为向下移动能够使智能体避免进入禁区。
-- 数学：上述直观可以通过计算状态值和行动值来实现。
+- 第一，直觉告诉我们：如果我们在$s_1$处选择$a_3$(向下)而不是$a_2$(向右)，则策略会更好。这是因为向下移动能够使智能体避免进入禁区。
+- 第二，从数学上，上面的直觉可以通过计算状态值和行动值来得到验证。
 
-首先，我们计算给定策略的状态值。特别是，该政策的贝尔曼方程是
+首先，计算给定策略的状态值。根据第2章的内容，不难写出该策略的贝尔曼方程是：
 
 $$\begin{aligned}
 v_{\pi}(s_1) &= -1 + \gamma v_{\pi}(s_2), \\
@@ -17,14 +18,14 @@ v_{\pi}(s_3) &= 1 + \gamma v_{\pi}(s_4), \\
 v_{\pi}(s_4) &= 1 + \gamma v_{\pi}(s_4).
 \end{aligned}$$
 
-设$\gamma=0.9$，可以解得
+如果设$\gamma=0.9$，可以求出：
 
 $$\begin{aligned}
     v_\pi(s_4)&=v_\pi(s_3)=v_\pi(s_2)=10,\\
     v_\pi(s_1)&=8
 \end{aligned}$$
 
-其次，可以计算状态$s_1$的行动值
+然后，计算给定策略下的行动值。针对状态$s_1$，其对应的动作值为：
 
 $$\begin{aligned}
     &q_{\pi}(s_1, a_1) = -1 + \gamma v_{\pi}(s_1) = 6.2, \\
@@ -34,12 +35,12 @@ $$\begin{aligned}
 &q_{\pi}(s_1, a_5) = 0 + \gamma v_{\pi}(s_1) = 7.2.
 \end{aligned}$$
 
-显而易见，行动$a_3$具有最大的行动值：
+上式表明行动$a_3$具有最大的行动值，即：
 
 $$q_{\pi}(s_1, a_3) \geq q_{\pi}(s_1, a_i), \quad \text{for all } i \neq 3.$$
 
-因此，我们可以更新策略，在$s_1$处选择$a_3$。
+因此为了得到更大的回报，新的策略应该在状态$s_1$选择$a_2$。
 
-这个例子说明，如果我们通过选择具有最大行动值的行动来更新策略，则可以获得更好的策略。这是许多强化学习算法的基本思想。
+这个例子说明了：如果我们更新策略从而使之选择具有最大行动值的行动，就可以获得更好的策略。
 
-这个例子非常简单，因为给定的策略只对状态$s_1$不利。如果该政策对其他状态也不利，那么选择具有最大行动值的行动仍然会产生更好的策略吗？此外，是否总是存在最优策略？最优政策是什么样的？我们将在本章中回答所有这些问题。
+这个例子非常简单，因为给定的策略只对状态$s_1$不利。如果策略对其他状态也不利，那么在$s_1$选择最大行动值的行动能否得到更好的策略呢？此外还有很多问题，是否总存在最优策略？最优政策是什么样的？我们将在本章中回答这些问题。
diff --git a/docs/Chapter-3/3-2.md b/docs/Chapter-3/3-2.md
@@ -1,22 +1,22 @@
-## 3.2最优状态值和最优策略
+## 3.2 最优状态值和最优策略
 
-虽然强化学习的最终目标是获得最优策略，但有必要首先定义什么是最优策略。定义是基于状态值的。特别地，考虑两个给定的策略$\pi_1$和$\pi_2$。如果对于任何状态，$\pi_1$的状态值大于或等于$\pi_2$的状态值：
+首先我们定义什么是**最优策略** (optimal policy)。
 
-$$v_{\pi_1}(s) \geq v_{\pi_2}(s), \quad \text{for all } s \in S.
-$$
 
-那么$\pi_1$就比$\pi_2$好。此外，如果一个策略优于所有其他可能的策略，则该策略是最优的。这一点正式说明如下。
+考虑两个给定的策略$\pi_1$和$\pi_2$。如果对于任何状态$s\in \mathcal{S}$，$\pi_1$的状态值都大于或等于$\pi_2$的状态值，即：
 
-**定义3.1**(最优策略和最优状态值). 一个策略$\pi^*$是最优的，如果对所有$s\in \mathcal{S}$和任何其他策略$\pi$，$v_{\pi^*}(s)\geq v_\pi(s)$。$\pi^*$的状态值是最优状态值。
+$$v_{\pi_1}(s) \geq v_{\pi_2}(s), \quad \text{for all } s \in S.$$
 
-上面的定义表明，与所有其他策略相比，最优策略对于每个状态都具有最大的状态值。这个定义也引出了很多问题：
+那么$\pi_1$就比$\pi_2$好。而如果一个策略优于所有其他可能的策略，则该策略是最优的，其正式定义如下所述。
 
-- 存在性：最优策略是否存在？
-- 唯一性：最优策略是唯一的吗？
-- 随机性：最优策略是随机的还是确定的？
-- 算法：如何获得最优策略和最优状态值？
+**定义3.1**(最优策略和最优状态值)。考虑策略$\pi^*$，如果对任意$s\in \mathcal{S}$和其他任意策略$\pi$，$v_{\pi^*}(s)\geq v_\pi(s)$，那么$\pi^*$是一个最优策略，并且$\pi^*$对应的状态值是最优状态值。
 
-要彻底理解最优策略，必须明确回答这些基本问题。例如，关于最优策略的存在性，如果最优策略不存在，那么我们不需要费心设计算法来找到它们。
+上面的定义表明，一个最优策略在每一个状态都有比其他策略更高的状态值。这个定义也引出了很多问题：
 
-我们将在本章的剩余部分回答所有这些问题。
+- 存在性：这样的最优策略是否存在？
+- 唯一性：这样的最优策略是唯一的吗？
+- 随机性：最优策略是随机性的还是确定性的？
+- 算法：什么算法能够获得最优策略和最优状态值？
+
+这借个问题非常重要。如果最优策略不存在，那么我们就不需要费心设计算法来找到它们。我们将在本章的剩余部分回答所有这些问题。
   
diff --git a/docs/Chapter-3/intro.md b/docs/Chapter-3/intro.md
@@ -1,5 +1,9 @@
-强化学习的最终目标是寻求最优策略。因此有必要确定什么是最优策略，在本章，我们介绍了一个核心概念和重要工具。核心概念是<font color=red>最优状态值</font>，基于此我们便可以定义<font color=red>最优策略</font>，<font color=red>贝尔曼最优公式</font>是求解最优状态值和最优策略的重要工具。
+强化学习的最终目标是寻找**最优策略**。因此，最优策略是强化学习中非常基础且重要的概念。本章将介绍一个重要概念和一个核心工具：这个核心概念是**最优状态值**，基于此，我们可以定义**最优策略**：这个核心工具是**贝尔曼最优方程**，基于此，我们可以求解最优状态值和最优策略。
 
-上一章、本章和后续章节之间的关系如下。前一章(第2章)介绍了任何给定政策的贝尔曼方程。本章介绍了贝尔曼最优公式，它是一种特殊的贝尔曼公式，其对应的策略是最优的。下一章(第4章)将介绍一个重要的算法，称为值迭代，这正是本章介绍的求解贝尔曼最优性公式的算法。
+本章与前后两张关系密切：第2章中我们介绍了贝尔曼方程，本章将要介绍的贝尔曼最优方程是一个特殊的贝尔曼方程；第3章将介绍的“值迭代”算法就用于求解本章介绍的贝尔曼最优方程。因此，本章起到了承上启下的关键作用。
 
-请做好准备，本章的数学内容有点密集。然而，这是值得的，因为许多基本问题可以得到明确的回答。
+本章的数学内容相较于前两章会稍微多一些，读者可能需要更加耐心地学习，多花一点时间也是值得的。因为这些数学内容对于透彻理解后面章节的内容至关重要。此外，这些数学内容以合理的方式呈现了出来，详细大家只要耐心学习，就不会觉得特别困难。
+ 
+ 
+ ![](../img/chapter/chapter-2.png)
+ > 图$3.1$: 本章在全书中的位置。
diff --git a/docs/img/chapter/chapter-3.png b/docs/img/chapter/chapter-3.png