Skip to content

Commit 2f95e0d

Browse files
authored
update Chapter-1
1 parent bda51dc commit 2f95e0d

7 files changed

Lines changed: 38 additions & 40 deletions

File tree

docs/Chapter-1/1-1.md

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -1,6 +1,6 @@
11
## 1.1 一个网格世界例子
22

3-
考虑图1.2中的例子,展示了一个机器人在现实网格世界中移动
3+
考虑图$1.2$中的例子,展示了一个智能体在现实网格世界中移动
44

55

66
![](../img/01/1.jpg)

docs/Chapter-1/1-2.md

Lines changed: 4 additions & 4 deletions
Original file line numberDiff line numberDiff line change
@@ -1,9 +1,9 @@
1-
## 1.2 state和action
1+
## 1.2 状态和行动
22

3-
首先需要介绍的概念是*state*,它描述了智能体相对于环境的状态。在网格世界的例子中,状态相当于智能体的位置。既然是九宫格,当然也会有九种states。它们被表示为图1.3(a)中的$s_1,s_2,...,s_9$,状态的集合被叫做*state space*,用符号表示为$\mathcal{S}=\{s_{1},\ldots,s_{9}\}。$
3+
首先需要介绍的概念是状态(state),它描述了智能体相对于环境的状态。在网格世界的例子中,状态相当于智能体的位置。既然是九宫格,当然也会有九种状态。它们被表示为图$1.3(a)$中的$s_1,s_2,...,s_9$,状态的集合被叫做状态空间(state space),用符号表示为$\mathcal{S}=\{s_{1},\ldots,s_{9}\}。$
44

5-
对于每个state,智能体会采取五个可能的*actions*:向前,向右,向后,向左和静止不动。这五个actions分别被表示为$a_1,a_2,...,a_5$(如图1.3(b)中所示)。不同的states可以有不同的动*action space*,表示为$\mathcal{A}=\{a_{1},\ldots,a_{5}\}$。例如,在state $s_1$的状态下采取$a_1$或$a_4$会导致与boundary发生碰撞,我们可以设置state $s_1$*action space*$\mathcal{A}(s_1)=\{a_{2},a_3,a_{5}\}$。在这本书中,我们考虑最一般的情况: $\mathcal{A}(s_i)=\mathcal{A}={a_{1},\ldots,a_{5}}$对于所有$i$。
5+
对于每个状态,智能体会采取五个可能的行动(action):向前,向右,向后,向左和静止不动。这五个行动分别被表示为$a_1,a_2,...,a_5$(如图1.3(b)中所示)。不同的状态可以有不同的行动空间,表示为$\mathcal{A}=\{a_{1},\ldots,a_{5}\}$。例如,$s_1$的状态下采取$a_1$或$a_4$会导致与边界(boundary)发生碰撞,我们可以设置$s_1$的行动空间为$\mathcal{A}(s_1)=\{a_{2},a_3,a_{5}\}$。在这本书中,我们考虑最一般的情况: $\mathcal{A}(s_i)=\mathcal{A}={a_{1},\ldots,a_{5}}$对于所有$i$。
66

77
![](../img/01/2.png)
88

9-
> 图1.3 state和action的图解,这里有九个states ${s_1,...,s_9}$,每个state有五个可能的actions ${a_1,a_2,a_3,a_4,a_5}$。
9+
> 图1.3 状态和行动的图解,这里有九个状态${s_1,...,s_9}$,每个状态有五个可能的行动${a_1,a_2,a_3,a_4,a_5}$。

docs/Chapter-1/1-3.md

Lines changed: 9 additions & 8 deletions
Original file line numberDiff line numberDiff line change
@@ -1,25 +1,26 @@
11
## 1.3 State transition
22

3-
当采取一次action时,智能体可能会从一个状态变为另外一个状态。这样一个过程被称为*state transition*。例如,如果一个在状态$s_1$的智能体采取了action $a_2$(也就是往右走),那么此时智能体将会移动到状态$s_2$,这样一个过程可以表示如下:
3+
当采取一次行动时,智能体可能会从一个状态变为另外一个状态。这样一个过程被称为状态转移(state transition)。例如,如果一个在状态$s_1$的智能体采取了行动$a_2$(也就是往右走),那么此时智能体将会移动到状态$s_2$,这样一个过程可以表示如下:
44

55
$$s_1\xrightarrow{a_2}s_2$$
66

77
我们接下来观察两个重要的例子。
88

9-
- 当智能体尝试跃出boundary时,下一步的state是什么,例如,在$s_1$时采取$a_1$(也就是向上走)。答案是智能体将会bounced back因为智能体不能跃出state space。因此,我们有$s_1\xrightarrow{a_1}s_1$。
10-
- 当智能体视图进入禁区时下一步的state是什么(forbidden cell)?例如在$s_5$采取$a_2$。在这里要分析两种不同的情况。在第一种情况下,尽管$s_6$是禁区,但是他仍然是可访问的。这种情况下,下一个state就是$s_6$。因此state transition就是$s_5\xrightarrow{a_2}s_6$。在第二种情况下,$s_6$是不可访问的,在这种情况下,智能体在尝试采取$a_2$时将会bounced back回到$s_5$,因此这时候的state transition就是$s_5\xrightarrow{a_2}s_5$。
9+
- 当智能体尝试跃出边界时,下一步的状态是什么,例如,在$s_1$时采取$a_1$(也就是向上走)。答案是智能体将会弹回(bounced back)因为智能体不能跃出状态空间。因此,我们有$s_1\xrightarrow{a_1}s_1$。
10+
- 当智能体试图进入禁区(forbidden cell)时下一步的状态是什么?例如在$s_5$采取$a_2$。在这里要分析两种不同的情况。在第一种情况下,尽管$s_6$是禁区,但是他仍然是可访问的。这种情况下,下一个状态就是$s_6$。因此状态转移就是$s_5\xrightarrow{a_2}s_6$。在第二种情况下,$s_6$是不可访问的,在这种情况下,智能体在尝试采取$a_2$时将会弹回回到$s_5$,因此这时候的状态转移就是$s_5\xrightarrow{a_2}s_5$。
11+
1112
- 我们应该考虑哪种情况?答案取决于现实环境。在本书中,我们考虑第一种禁区可以被访问的情景,尽管进入禁区会被惩罚。这种场景是更加一般化并且有趣的场景。此外,由于我们考虑的是模拟任务,因此无论我们倾向于哪种情况,我们都将对状态转换过程进行网络化。在实际情况的应用中,状态转换过程是由动态的现实世界决定的。
1213

13-
每个state及其相关actions定义了state transition过程。这个过程在表1.1中有所描述。在这个表中,每一行代表一个state,每一列代表一个action。每一个单元格表示当智能体在对应的state采取了action后,要过渡到的下一个state
14+
每个状态及其相关行动定义了状态转移过程。这个过程在表$1.1$中有所描述。在这个表中,每一行代表一个状态,每一列代表一个行动。每一个单元格表示当智能体在对应的状态采取了行动后,要过渡到的下一个状态
1415

1516
![](../img/01/3.png)
1617

17-
> 表1.1 state transition过程的表格表示。每个单元格表示智能体在某一state下采取行动后要过渡到的下一个state
18+
> 表1.1 状态过程的表格表示。每个单元格表示智能体在某一状态下采取行动后要过渡到的下一个状态
1819
19-
从数学上,state transition过程可以用条件概率进行表示,例如对于$s_1$和$a_2$,条件概率分布如下
20+
从数学上,状态转移过程可以用条件概率进行表示,例如对于$s_1$和$a_2$,条件概率分布如下
2021

2122
$$\begin{cases}&p(s_1|s_1,a_2)=0,\\&p(s_2|s_1,a_2)=1,\\&p(s_3|s_1,a_2)=0,\\&p(s_4|s_1,a_2)=0,\\&p(s_5|s_1,a_2)=0,\end{cases}$$
2223

23-
这表明,在$s_1$时采取$a_2$,智能体移动到$s_2$的概率为1,移动到其他states的概率为0。因此在$s_1$处采取$a_2$无疑将会使智能体转移到$s_2$,关于条件概率的预备知识在附录A中提到,我们强力建议读者熟悉概率论,这是强化学习所必要的。
24+
这表明,在$s_1$时采取$a_2$,智能体移动到$s_2$的概率为$1$,移动到其他状态的概率为$0$。因此在$s_1$处采取$a_2$无疑将会使智能体转移到$s_2$,关于条件概率的预备知识在附录A中提到,我们强力建议读者熟悉概率论,这是强化学习所必要的。
2425

25-
表格表示法虽然直观,但只能描述确定性的state transition。一般来说,state transition可能是随机的,必须用条件概率分布来表示。例如,当一阵随机的风吹过网格时,如果在$s_1$处采取$a_2$,智能体有可能会被吹到$s_5$,而不是$s_2$。在这种情况下,我们的$p(s_5|s_1,a_2)>0$。尽管如此,为了简单起见,我们在书中仅考虑网格世界实例中的确定性(deterministic)。
26+
表格表示法虽然直观,但只能描述确定性的状态转移。一般来说,状态转移可能是随机的,必须用条件概率分布来表示。例如,当一阵随机的风吹过网格时,如果在$s_1$处采取$a_2$,智能体有可能会被吹到$s_5$,而不是$s_2$。在这种情况下,我们的$p(s_5|s_1,a_2)>0$。尽管如此,为了简单起见,我们在书中仅考虑网格世界实例中的确定性(deterministic)。

docs/Chapter-1/1-4.md

Lines changed: 5 additions & 5 deletions
Original file line numberDiff line numberDiff line change
@@ -1,22 +1,22 @@
11
## 策略(Policy)
22

3-
策略(policy)告诉了智能体在每一个state下应该采取什么actions,policy可以被直观描述为图1.4(b)中的箭头。遵循策略,智能体可以产生一个从初始状态开始的轨迹(如图1.4(b)所示)。
3+
策略(policy)告诉了智能体在每一个状态下应该采取什么行动,策略可以被直观描述为图$1.4(b)$中的箭头。遵循策略,智能体可以产生一个从初始状态开始的轨迹(如图$1.4(b)$所示)。
44

55
![](../img/01/4.png)
6-
> 图1.4 用箭头和从不同初始状态出发得到的一些轨迹来表示一个policy
6+
> 图1.4 用箭头和从不同初始状态出发得到的一些轨迹来表示一个策略
77
8-
数学上,策略可以用条件概率进行描述。将图1.4中的策略描述为$\pi(a|s)$,这是一个为每个状态定义的条件概率分布函数。例如,状态$s_1$的策略是:
8+
数学上,策略可以用条件概率进行描述。将图$1.4$中的策略描述为$\pi(a|s)$,这是一个为每个状态定义的条件概率分布函数。例如,状态$s_1$的策略是:
99

1010
$$\begin{gathered}\pi(a_1|s_1)=0,\\\pi(a_{2}|s_{1})=1,\\\pi(a_3|s_1)=0,\\\pi(a_4|s_1)=0,\\\pi(a_{5}|s_{1})=0,\end{gathered}$$
1111

12-
这表示在状态$s_1$下采取行动$a_2$的概率是1,而采取其他动作的概率为0
12+
这表示在状态$s_1$下采取行动$a_2$的概率是$1$,而采取其他动作的概率为$0$
1313

1414
上面的政策是确定性的(deterministic)。但是一般来说,策略是随机的(stochastic)。例如,在图1.5这种展示的策略就是随机的: 在状态$s_1$下,智能体可能采取行动来向右或者向下。采取这两个行动的概率是相同的(都是0.5)。在这种情况下,状态$s_1$的策略是
1515

1616
$$\begin{gathered}\pi(a_1|s_1)=0,\\\pi(a_{2}|s_{1})=0.5,\\\pi(a_3|s_1)=0.5,\\\pi(a_4|s_1)=0,\\\pi(a_{5}|s_{1})=0,\end{gathered}$$
1717

1818
![](../img/01/5.png)
19-
> 图1.5 一个随机策略。在状态$s_1$中,智能体可能向右移动,也可能向下移动,概率均为 0.5。
19+
> 图1.5 一个随机策略。在状态$s_1$中,智能体可能向右移动,也可能向下移动,概率均为$0.5$
2020
2121
以条件概率表示的策略可以表格形式存储。例如,表1.2表示图1.5所示的随机策略。第$i$行和第$j$列的条目是在第$i$个状态下采取第$j$个行动的概率。这种表示法称为表格表示法(tabular representation)。我们将在第 8 章中介绍另一种将策略表示为参数化函数的方法。
2222

docs/Chapter-1/1-5.md

Lines changed: 9 additions & 10 deletions
Original file line numberDiff line numberDiff line change
@@ -6,33 +6,32 @@
66

77
在网格世界例子中,奖励设计如下:
88

9-
- 如果智能体尝试跃出边界,则$r_{boundary}=-1$
9+
- 如果智能体尝试跃出边界,则$r_\text{boundary}=-1$
1010

11-
- 如果智能体尝试进入禁区,则$r_{forbidden}=-1$
11+
- 如果智能体尝试进入禁区,则$r_\text{forbidden}=-1$
1212

13-
- 如果智能体到达目标状态,则$r_{target}=+1$
13+
- 如果智能体到达目标状态,则$r_\text{target}=+1$
1414

15-
- 其他,智能体获得的奖励为$r_{other}=0$
15+
- 其他,智能体获得的奖励为$r_\text{other}=0$
1616

17-
应特别注意目标状态$s_9$。奖励过程并不必须在智能体到达$s_9$后终止。如果智能体在$s_9$采取行动$a_5$,下一个状态还是$s_9$,奖励为 $r_{target}=+1$。如果智能体采取$a_2$行动,下一个状态也是$s_9$,但奖励是$r_{boundary}=+1$。
17+
应特别注意目标状态$s_9$。奖励过程并不必须在智能体到达$s_9$后终止。如果智能体在$s_9$采取行动$a_5$,下一个状态还是$s_9$,奖励为 $r_\text{target}=+1$。如果智能体采取$a_2$行动,下一个状态也是$s_9$,但奖励是$r_\text{boundary}=+1$。
1818

1919
奖励可以被理解为一种人机界面(human-machine interface),我们可以用它来引导智能体按照我们的期望行事。例如,通过上面设计的奖励,我们可以让智能体倾向于避免离开边界或踏入禁区。设计适当的奖励是强化学习的重要一步。不过对于复杂的任务来说,这一步并不简单,因为它可能需要我们对给定问题有很好的理解
2020
。尽管如此,这仍比使用其他需要专业背景或对给定问题有深刻理解的方法来解决问题要容易得多。
2121

22-
执行动作后获得奖励的过程可以直观地表示为表1.3。表格的每一行对应一个状态,每
23-
列对应一个行动。表中每个单元格中的值表示在某一状态下采取某一行动所能得到的奖励。
22+
执行动作后获得奖励的过程可以直观地表示为表$1.3$。表格的每一行对应一个状态,每列对应一个行动。表中每个单元格中的值表示在某一状态下采取某一行动所能得到的奖励。
2423

25-
初学者可能会问这样一个问题:如果给定了奖励表,我们能通过简单地选择奖励最大的行动来找到好的策略吗?答案是否定的。这是因为这些奖励都是即时奖励,可以在采取行动后获得。要确定一个好的政策,我们必须考虑长期获得的总奖励(更多信息请参见第 1.6 节)。即时回报最大的行动未必会带来最大的总回报。
24+
初学者可能会问这样一个问题:如果给定了奖励表,我们能通过简单地选择奖励最大的行动来找到好的策略吗?答案是否定的。这是因为这些奖励都是即时奖励,可以在采取行动后获得。要确定一个好的政策,我们必须考虑长期获得的总奖励(更多信息请参见第$1.6$节)。即时回报最大的行动未必会带来最大的总回报。
2625

2726
!!! note
28-
我理解的是局部最优不代表全局最优
27+
局部最优不代表全局最优
2928

3029
虽然直观,但表格表示法只能描述确定性的
3130
奖励过程。一种更普遍的方法是使用条件概率$p(r|s,a)$来描述奖励过程。例如,对于状态$s_1$,我们有:
3231

3332
$$p(r=-1|s_{1},a_{1})=1,\quad p(r\neq-1|s_{1},a_{1})=0.$$
3433

3534
![](../img/01/7.png)
36-
> 以表格表示获取奖励的过程。在这里,过程是确定的。每个单元格表示智能体在给定状态下采取行动后可以获得多少奖励。
35+
> 表1.3: 以表格表示获取奖励的过程。在这里,过程是确定的。每个单元格表示智能体在给定状态下采取行动后可以获得多少奖励。
3736
3837
这意味着,当我们在$s_1$处采取$a_1$,智能体肯定会获得$r=-1$。在这个例子中,奖励过程是确定(deterministic)。但一般来说,它应该是随机的(stochastic)。例如,学习努力的一个学生,他/她会收到一个正向的奖励(例如在考试中取得更高的成绩),但是奖励的值是不确定的。

0 commit comments

Comments
 (0)