1- ## 3.1 例子:如何改进策略?
1+ ## 3.1 启发示例:如何改进策略?
2+
3+ 考虑图$3.2$中的示例,其中橙色和蓝色单元格分别表示禁止区域和目标区域。图中的箭头代表一个给定的策略。这里的策略从直观上来说不好,因为它在状态$s_1$中选择了$a_2$(向右移动),从而进入禁止区域。那么我们能否改进这个策略进而得到一个更好的策略呢?答案是可以的。下面通过一个例子来介绍改进策略的思路。
24
35 ![ ] ( ../img/03/1.png )
4- > 图3.2: 一个展示策略改进的例子 。
6+ > 图3.2: 一个用于展示策略改进的例子 。
57
6- 考虑图3.2所示的策略。这里,橙色和蓝色单元格分别表示禁止区域和目标区域。这里的策略不好,因为它在状态$s_1$中选择了$a_2$(向右)。我们如何改进现有的策略,以获得更好的策略?答案在于状态值和行动值。
78
8- - 直觉: 直觉上很清楚,如果在 $s_1$处选择$a_3$(向下)而不是$a_2$(向下),则策略可以改进 。这是因为向下移动能够使智能体避免进入禁区。
9- - 数学:上述直观可以通过计算状态值和行动值来实现 。
9+ - 第一,直觉告诉我们:如果我们在 $s_1$处选择$a_3$(向下)而不是$a_2$(向右),则策略会更好 。这是因为向下移动能够使智能体避免进入禁区。
10+ - 第二,从数学上,上面的直觉可以通过计算状态值和行动值来得到验证 。
1011
11- 首先,我们计算给定策略的状态值。特别是,该政策的贝尔曼方程是
12+ 首先,计算给定策略的状态值。根据第2章的内容,不难写出该策略的贝尔曼方程是:
1213
1314$$ \begin{aligned}
1415v_{\pi}(s_1) &= -1 + \gamma v_{\pi}(s_2), \\
@@ -17,14 +18,14 @@ v_{\pi}(s_3) &= 1 + \gamma v_{\pi}(s_4), \\
1718v_{\pi}(s_4) &= 1 + \gamma v_{\pi}(s_4).
1819\end{aligned} $$
1920
20- 设 $\gamma=0.9$,可以解得
21+ 如果设 $\gamma=0.9$,可以求出:
2122
2223$$ \begin{aligned}
2324 v_\pi(s_4)&=v_\pi(s_3)=v_\pi(s_2)=10,\\
2425 v_\pi(s_1)&=8
2526\end{aligned} $$
2627
27- 其次,可以计算状态 $s_1$的行动值
28+ 然后,计算给定策略下的行动值。针对状态 $s_1$,其对应的动作值为:
2829
2930$$ \begin{aligned}
3031 &q_{\pi}(s_1, a_1) = -1 + \gamma v_{\pi}(s_1) = 6.2, \\
@@ -34,12 +35,12 @@ $$\begin{aligned}
3435&q_{\pi}(s_1, a_5) = 0 + \gamma v_{\pi}(s_1) = 7.2.
3536\end{aligned} $$
3637
37- 显而易见,行动 $a_3$具有最大的行动值:
38+ 上式表明行动 $a_3$具有最大的行动值,即 :
3839
3940$$ q_{\pi}(s_1, a_3) \geq q_{\pi}(s_1, a_i), \quad \text{for all } i \neq 3. $$
4041
41- 因此,我们可以更新策略,在 $s_1$处选择$a_3 $。
42+ 因此为了得到更大的回报,新的策略应该在状态 $s_1$选择$a_2 $。
4243
43- 这个例子说明,如果我们通过选择具有最大行动值的行动来更新策略,则可以获得更好的策略。这是许多强化学习算法的基本思想 。
44+ 这个例子说明了:如果我们更新策略从而使之选择具有最大行动值的行动,就可以获得更好的策略 。
4445
45- 这个例子非常简单,因为给定的策略只对状态$s_1$不利。如果该政策对其他状态也不利,那么选择具有最大行动值的行动仍然会产生更好的策略吗?此外,是否总是存在最优策略 ?最优政策是什么样的?我们将在本章中回答所有这些问题 。
46+ 这个例子非常简单,因为给定的策略只对状态$s_1$不利。如果策略对其他状态也不利,那么在$s_1$选择最大行动值的行动能否得到更好的策略呢?此外还有很多问题,是否总存在最优策略 ?最优政策是什么样的?我们将在本章中回答这些问题 。
0 commit comments