Skip to content

Commit 1f7b6c1

Browse files
committed
第三章前两节润色版本更新
1 parent 1992f19 commit 1f7b6c1

2 files changed

Lines changed: 23 additions & 1 deletion

File tree

Lines changed: 22 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,22 @@
1+
## 3.2 最优状态值和最优策略
2+
3+
首先我们定义什么是**最优策略** (optimal policy)。
4+
5+
6+
考虑两个给定的策略$\pi_1$和$\pi_2$。如果对于任何状态$s\in \mathcal{S}$,$\pi_1$的状态值都大于或等于$\pi_2$的状态值,即:
7+
8+
$$v_{\pi_1}(s) \geq v_{\pi_2}(s), \quad \text{for all } s \in S.$$
9+
10+
那么$\pi_1$就比$\pi_2$好。而如果一个策略优于所有其他可能的策略,则该策略是最优的,其正式定义如下所述。
11+
12+
**定义3.1**(最优策略和最优状态值)。考虑策略$\pi^*$,如果对任意$s\in \mathcal{S}$和其他任意策略$\pi$,$v_{\pi^*}(s)\geq v_\pi(s)$,那么$\pi^*$是一个最优策略,并且$\pi^*$对应的状态值是最优状态值。
13+
14+
上面的定义表明,一个最优策略在每一个状态都有比其他策略更高的状态值。这个定义也引出了很多问题:
15+
16+
- 存在性:这样的最优策略是否存在?
17+
- 唯一性:这样的最优策略是唯一的吗?
18+
- 随机性:最优策略是随机性的还是确定性的?
19+
- 算法:什么算法能够使我们获得最优策略和最优状态值?
20+
21+
这借个问题非常重要。如果最优策略不存在,那么我们就不需要费心设计算法来找到它们。我们将在本章的剩余部分回答所有这些问题。
22+

docs/Chapter-3/3-2.md

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -16,7 +16,7 @@ $$v_{\pi_1}(s) \geq v_{\pi_2}(s), \quad \text{for all } s \in S.$$
1616
- 存在性:这样的最优策略是否存在?
1717
- 唯一性:这样的最优策略是唯一的吗?
1818
- 随机性:最优策略是随机性的还是确定性的?
19-
- 算法:什么算法能够获得最优策略和最优状态值
19+
- 算法:什么算法能够使我们获得最优策略和最优状态值
2020

2121
这借个问题非常重要。如果最优策略不存在,那么我们就不需要费心设计算法来找到它们。我们将在本章的剩余部分回答所有这些问题。
2222

0 commit comments

Comments
 (0)