第三章前两节润色版本更新

wgyhhhh · wgyhhhh · commit 1f7b6c19097f · 2025-10-22T00:58:51.000+08:00
diff --git a/.history/docs/Chapter-3/3-2_20251022005838.md b/.history/docs/Chapter-3/3-2_20251022005838.md
@@ -0,0 +1,22 @@
+## 3.2 最优状态值和最优策略
+
+首先我们定义什么是**最优策略** (optimal policy)。
+
+
+考虑两个给定的策略$\pi_1$和$\pi_2$。如果对于任何状态$s\in \mathcal{S}$，$\pi_1$的状态值都大于或等于$\pi_2$的状态值，即：
+
+$$v_{\pi_1}(s) \geq v_{\pi_2}(s), \quad \text{for all } s \in S.$$
+
+那么$\pi_1$就比$\pi_2$好。而如果一个策略优于所有其他可能的策略，则该策略是最优的，其正式定义如下所述。
+
+**定义3.1**(最优策略和最优状态值)。考虑策略$\pi^*$，如果对任意$s\in \mathcal{S}$和其他任意策略$\pi$，$v_{\pi^*}(s)\geq v_\pi(s)$，那么$\pi^*$是一个最优策略，并且$\pi^*$对应的状态值是最优状态值。
+
+上面的定义表明，一个最优策略在每一个状态都有比其他策略更高的状态值。这个定义也引出了很多问题：
+
+- 存在性：这样的最优策略是否存在？
+- 唯一性：这样的最优策略是唯一的吗？
+- 随机性：最优策略是随机性的还是确定性的？
+- 算法：什么算法能够使我们获得最优策略和最优状态值？
+
+这借个问题非常重要。如果最优策略不存在，那么我们就不需要费心设计算法来找到它们。我们将在本章的剩余部分回答所有这些问题。
+  
diff --git a/docs/Chapter-3/3-2.md b/docs/Chapter-3/3-2.md
@@ -16,7 +16,7 @@ $$v_{\pi_1}(s) \geq v_{\pi_2}(s), \quad \text{for all } s \in S.$$
 - 存在性：这样的最优策略是否存在？
 - 唯一性：这样的最优策略是唯一的吗？
 - 随机性：最优策略是随机性的还是确定性的？
-- 算法：什么算法能够获得最优策略和最优状态值？
+- 算法：什么算法能够使我们获得最优策略和最优状态值？
 
 这借个问题非常重要。如果最优策略不存在，那么我们就不需要费心设计算法来找到它们。我们将在本章的剩余部分回答所有这些问题。