Skip to content

Commit b20711a

Browse files
committed
第三章前两节润色版本更新
1 parent 52ab6ab commit b20711a

7 files changed

Lines changed: 110 additions & 28 deletions

File tree

Lines changed: 46 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,46 @@
1+
## 3.1 启发示例:如何改进策略?
2+
3+
考虑图$3.2$中的示例,其中橙色和蓝色单元格分别表示禁止区域和目标区域。图中的箭头代表一个给定的策略。这里的策略从直观上来说不好,因为它在状态$s_1$中选择了$a_2$(向右移动),从而进入禁止区域。那么我们能否改进这个策略进而得到一个更好的策略呢?答案是可以的。下面通过一个例子来介绍改进策略的思路。
4+
5+
![](../img/03/1.png)
6+
> 图3.2: 一个用于展示策略改进的例子。
7+
8+
9+
- 第一,直觉告诉我们:如果我们在$s_1$处选择$a_3$(向下)而不是$a_2$(向右),则策略会更好。这是因为向下移动能够使智能体避免进入禁区。
10+
- 第二,从数学上,上面的直觉可以通过计算状态值和行动值来得到验证。
11+
12+
首先,计算给定策略的状态值。根据第2章的内容,不难写出该策略的贝尔曼方程是:
13+
14+
$$\begin{aligned}
15+
v_{\pi}(s_1) &= -1 + \gamma v_{\pi}(s_2), \\
16+
v_{\pi}(s_2) &= 1 + \gamma v_{\pi}(s_4), \\
17+
v_{\pi}(s_3) &= 1 + \gamma v_{\pi}(s_4), \\
18+
v_{\pi}(s_4) &= 1 + \gamma v_{\pi}(s_4).
19+
\end{aligned}$$
20+
21+
如果设$\gamma=0.9$,可以求出:
22+
23+
$$\begin{aligned}
24+
v_\pi(s_4)&=v_\pi(s_3)=v_\pi(s_2)=10,\\
25+
v_\pi(s_1)&=8
26+
\end{aligned}$$
27+
28+
然后,计算给定策略下的行动值。针对状态$s_1$,其对应的动作值为:
29+
30+
$$\begin{aligned}
31+
&q_{\pi}(s_1, a_1) = -1 + \gamma v_{\pi}(s_1) = 6.2, \\
32+
&q_{\pi}(s_1, a_2) = -1 + \gamma v_{\pi}(s_2) = 8, \\
33+
&q_{\pi}(s_1, a_3) = 0 + \gamma v_{\pi}(s_3) = 9, \\
34+
&q_{\pi}(s_1, a_4) = -1 + \gamma v_{\pi}(s_1) = 6.2, \\
35+
&q_{\pi}(s_1, a_5) = 0 + \gamma v_{\pi}(s_1) = 7.2.
36+
\end{aligned}$$
37+
38+
上式表明行动$a_3$具有最大的行动值,即:
39+
40+
$$q_{\pi}(s_1, a_3) \geq q_{\pi}(s_1, a_i), \quad \text{for all } i \neq 3.$$
41+
42+
因此为了得到更大的回报,新的策略应该在状态$s_1$选择$a_2$。
43+
44+
这个例子说明了:如果我们更新策略从而使之选择具有最大行动值的行动,就可以获得更好的策略。
45+
46+
这个例子非常简单,因为给定的策略只对状态$s_1$不利。如果策略对其他状态也不利,那么在$s_1$选择最大行动值的行动能否得到更好的策略呢?此外还有很多问题,是否总存在最优策略?最优政策是什么样的?我们将在本章中回答这些问题。
Lines changed: 22 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,22 @@
1+
## 3.2 最优状态值和最优策略
2+
3+
首先我们定义什么是**最优策略** (optimal policy)。
4+
5+
6+
考虑两个给定的策略$\pi_1$和$\pi_2$。如果对于任何状态$s\in \mathcal{S}$,$\pi_1$的状态值都大于或等于$\pi_2$的状态值,即:
7+
8+
$$v_{\pi_1}(s) \geq v_{\pi_2}(s), \quad \text{for all } s \in S.$$
9+
10+
那么$\pi_1$就比$\pi_2$好。而如果一个策略优于所有其他可能的策略,则该策略是最优的,其正式定义如下所述。
11+
12+
**定义3.1**(最优策略和最优状态值)。考虑策略$\pi^*$,如果对任意$s\in \mathcal{S}$和其他任意策略$\pi$,$v_{\pi^*}(s)\geq v_\pi(s)$,那么$\pi^*$是一个最优策略,并且$\pi^*$对应的状态值是最优状态值。
13+
14+
上面的定义表明,一个最优策略在每一个状态都有比其他策略更高的状态值。这个定义也引出了很多问题:
15+
16+
- 存在性:这样的最优策略是否存在?
17+
- 唯一性:这样的最优策略是唯一的吗?
18+
- 随机性:最优策略是随机性的还是确定性的?
19+
- 算法:什么算法能够获得最优策略和最优状态值?
20+
21+
这借个问题非常重要。如果最优策略不存在,那么我们就不需要费心设计算法来找到它们。我们将在本章的剩余部分回答所有这些问题。
22+
Lines changed: 9 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,9 @@
1+
强化学习的最终目标是寻找**最优策略**。因此,最优策略是强化学习中非常基础且重要的概念。本章将介绍一个重要概念和一个核心工具:这个核心概念是**最优状态值**,基于此,我们可以定义**最优策略**:这个核心工具是**贝尔曼最优方程**,基于此,我们可以求解最优状态值和最优策略。
2+
3+
本章与前后两张关系密切:第2章中我们介绍了贝尔曼方程,本章将要介绍的贝尔曼最优方程是一个特殊的贝尔曼方程;第3章将介绍的“值迭代”算法就用于求解本章介绍的贝尔曼最优方程。因此,本章起到了承上启下的关键作用。
4+
5+
本章的数学内容相较于前两章会稍微多一些,读者可能需要更加耐心地学习,多花一点时间也是值得的。因为这些数学内容对于透彻理解后面章节的内容至关重要。此外,这些数学内容以合理的方式呈现了出来,详细大家只要耐心学习,就不会觉得特别困难。
6+
7+
8+
![](../img/chapter/chapter-2.png)
9+
> 图$3.1$: 本章在全书中的位置。

docs/Chapter-3/3-1.md

Lines changed: 13 additions & 12 deletions
Original file line numberDiff line numberDiff line change
@@ -1,14 +1,15 @@
1-
## 3.1 例子:如何改进策略?
1+
## 3.1 启发示例:如何改进策略?
2+
3+
考虑图$3.2$中的示例,其中橙色和蓝色单元格分别表示禁止区域和目标区域。图中的箭头代表一个给定的策略。这里的策略从直观上来说不好,因为它在状态$s_1$中选择了$a_2$(向右移动),从而进入禁止区域。那么我们能否改进这个策略进而得到一个更好的策略呢?答案是可以的。下面通过一个例子来介绍改进策略的思路。
24

35
![](../img/03/1.png)
4-
> 图3.2: 一个展示策略改进的例子
6+
> 图3.2: 一个用于展示策略改进的例子
57
6-
考虑图3.2所示的策略。这里,橙色和蓝色单元格分别表示禁止区域和目标区域。这里的策略不好,因为它在状态$s_1$中选择了$a_2$(向右)。我们如何改进现有的策略,以获得更好的策略?答案在于状态值和行动值。
78

8-
- 直觉: 直觉上很清楚,如果在$s_1$处选择$a_3$(向下)而不是$a_2$(向下),则策略可以改进。这是因为向下移动能够使智能体避免进入禁区。
9-
- 数学:上述直观可以通过计算状态值和行动值来实现
9+
- 第一,直觉告诉我们:如果我们在$s_1$处选择$a_3$(向下)而不是$a_2$(向右),则策略会更好。这是因为向下移动能够使智能体避免进入禁区。
10+
- 第二,从数学上,上面的直觉可以通过计算状态值和行动值来得到验证
1011

11-
首先,我们计算给定策略的状态值。特别是,该政策的贝尔曼方程是
12+
首先,计算给定策略的状态值。根据第2章的内容,不难写出该策略的贝尔曼方程是:
1213

1314
$$\begin{aligned}
1415
v_{\pi}(s_1) &= -1 + \gamma v_{\pi}(s_2), \\
@@ -17,14 +18,14 @@ v_{\pi}(s_3) &= 1 + \gamma v_{\pi}(s_4), \\
1718
v_{\pi}(s_4) &= 1 + \gamma v_{\pi}(s_4).
1819
\end{aligned}$$
1920

20-
$\gamma=0.9$,可以解得
21+
如果设$\gamma=0.9$,可以求出:
2122

2223
$$\begin{aligned}
2324
v_\pi(s_4)&=v_\pi(s_3)=v_\pi(s_2)=10,\\
2425
v_\pi(s_1)&=8
2526
\end{aligned}$$
2627

27-
其次,可以计算状态$s_1$的行动值
28+
然后,计算给定策略下的行动值。针对状态$s_1$,其对应的动作值为:
2829

2930
$$\begin{aligned}
3031
&q_{\pi}(s_1, a_1) = -1 + \gamma v_{\pi}(s_1) = 6.2, \\
@@ -34,12 +35,12 @@ $$\begin{aligned}
3435
&q_{\pi}(s_1, a_5) = 0 + \gamma v_{\pi}(s_1) = 7.2.
3536
\end{aligned}$$
3637

37-
显而易见,行动$a_3$具有最大的行动值:
38+
上式表明行动$a_3$具有最大的行动值,即
3839

3940
$$q_{\pi}(s_1, a_3) \geq q_{\pi}(s_1, a_i), \quad \text{for all } i \neq 3.$$
4041

41-
因此,我们可以更新策略,在$s_1$处选择$a_3$。
42+
因此为了得到更大的回报,新的策略应该在状态$s_1$选择$a_2$。
4243

43-
这个例子说明,如果我们通过选择具有最大行动值的行动来更新策略,则可以获得更好的策略。这是许多强化学习算法的基本思想
44+
这个例子说明了:如果我们更新策略从而使之选择具有最大行动值的行动,就可以获得更好的策略
4445

45-
这个例子非常简单,因为给定的策略只对状态$s_1$不利。如果该政策对其他状态也不利,那么选择具有最大行动值的行动仍然会产生更好的策略吗?此外,是否总是存在最优策略?最优政策是什么样的?我们将在本章中回答所有这些问题
46+
这个例子非常简单,因为给定的策略只对状态$s_1$不利。如果策略对其他状态也不利,那么在$s_1$选择最大行动值的行动能否得到更好的策略呢?此外还有很多问题,是否总存在最优策略?最优政策是什么样的?我们将在本章中回答这些问题

docs/Chapter-3/3-2.md

Lines changed: 13 additions & 13 deletions
Original file line numberDiff line numberDiff line change
@@ -1,22 +1,22 @@
1-
## 3.2最优状态值和最优策略
1+
## 3.2 最优状态值和最优策略
22

3-
虽然强化学习的最终目标是获得最优策略,但有必要首先定义什么是最优策略。定义是基于状态值的。特别地,考虑两个给定的策略$\pi_1$和$\pi_2$。如果对于任何状态,$\pi_1$的状态值大于或等于$\pi_2$的状态值:
3+
首先我们定义什么是**最优策略** (optimal policy)。
44

5-
$$v_{\pi_1}(s) \geq v_{\pi_2}(s), \quad \text{for all } s \in S.
6-
$$
75

8-
那么$\pi_1$就比$\pi_2$好。此外,如果一个策略优于所有其他可能的策略,则该策略是最优的。这一点正式说明如下。
6+
考虑两个给定的策略$\pi_1$$\pi_2$。如果对于任何状态$s\in \mathcal{S}$,$\pi_1$的状态值都大于或等于$\pi_2$的状态值,即:
97

10-
**定义3.1**(最优策略和最优状态值). 一个策略$\pi^*$是最优的,如果对所有$s\in \mathcal{S}$和任何其他策略$\pi$,$v_{\pi^*}(s)\geq v_\pi(s)$。$\pi^*$的状态值是最优状态值。
8+
$$v_{\pi_1}(s) \geq v_{\pi_2}(s), \quad \text{for all } s \in S.$$
119

12-
上面的定义表明,与所有其他策略相比,最优策略对于每个状态都具有最大的状态值。这个定义也引出了很多问题:
10+
那么$\pi_1$就比$\pi_2$好。而如果一个策略优于所有其他可能的策略,则该策略是最优的,其正式定义如下所述。
1311

14-
- 存在性:最优策略是否存在?
15-
- 唯一性:最优策略是唯一的吗?
16-
- 随机性:最优策略是随机的还是确定的?
17-
- 算法:如何获得最优策略和最优状态值?
12+
**定义3.1**(最优策略和最优状态值)。考虑策略$\pi^*$,如果对任意$s\in \mathcal{S}$和其他任意策略$\pi$,$v_{\pi^*}(s)\geq v_\pi(s)$,那么$\pi^*$是一个最优策略,并且$\pi^*$对应的状态值是最优状态值。
1813

19-
要彻底理解最优策略,必须明确回答这些基本问题。例如,关于最优策略的存在性,如果最优策略不存在,那么我们不需要费心设计算法来找到它们。
14+
上面的定义表明,一个最优策略在每一个状态都有比其他策略更高的状态值。这个定义也引出了很多问题:
2015

21-
我们将在本章的剩余部分回答所有这些问题。
16+
- 存在性:这样的最优策略是否存在?
17+
- 唯一性:这样的最优策略是唯一的吗?
18+
- 随机性:最优策略是随机性的还是确定性的?
19+
- 算法:什么算法能够获得最优策略和最优状态值?
20+
21+
这借个问题非常重要。如果最优策略不存在,那么我们就不需要费心设计算法来找到它们。我们将在本章的剩余部分回答所有这些问题。
2222

docs/Chapter-3/intro.md

Lines changed: 7 additions & 3 deletions
Original file line numberDiff line numberDiff line change
@@ -1,5 +1,9 @@
1-
强化学习的最终目标是寻求最优策略。因此有必要确定什么是最优策略,在本章,我们介绍了一个核心概念和重要工具。核心概念是<font color=red>最优状态值</font>,基于此我们便可以定义<font color=red>最优策略</font>,<font color=red>贝尔曼最优公式</font>是求解最优状态值和最优策略的重要工具
1+
强化学习的最终目标是寻找**最优策略**。因此,最优策略是强化学习中非常基础且重要的概念。本章将介绍一个重要概念和一个核心工具:这个核心概念是**最优状态值**,基于此,我们可以定义**最优策略**:这个核心工具是**贝尔曼最优方程**,基于此,我们可以求解最优状态值和最优策略
22

3-
上一章、本章和后续章节之间的关系如下。前一章(第2章)介绍了任何给定政策的贝尔曼方程。本章介绍了贝尔曼最优公式,它是一种特殊的贝尔曼公式,其对应的策略是最优的。下一章(第4章)将介绍一个重要的算法,称为值迭代,这正是本章介绍的求解贝尔曼最优性公式的算法
3+
本章与前后两张关系密切:第2章中我们介绍了贝尔曼方程,本章将要介绍的贝尔曼最优方程是一个特殊的贝尔曼方程;第3章将介绍的“值迭代”算法就用于求解本章介绍的贝尔曼最优方程。因此,本章起到了承上启下的关键作用
44

5-
请做好准备,本章的数学内容有点密集。然而,这是值得的,因为许多基本问题可以得到明确的回答。
5+
本章的数学内容相较于前两章会稍微多一些,读者可能需要更加耐心地学习,多花一点时间也是值得的。因为这些数学内容对于透彻理解后面章节的内容至关重要。此外,这些数学内容以合理的方式呈现了出来,详细大家只要耐心学习,就不会觉得特别困难。
6+
7+
8+
![](../img/chapter/chapter-2.png)
9+
> 图$3.1$: 本章在全书中的位置。

docs/img/chapter/chapter-3.png

127 KB
Loading

0 commit comments

Comments
 (0)