Skip to content

Commit b4c8842

Browse files
authored
update Chapter-6
1 parent 45afc95 commit b4c8842

6 files changed

Lines changed: 297 additions & 23 deletions

File tree

docs/Chapter-6/6-1.md

Lines changed: 8 additions & 4 deletions
Original file line numberDiff line numberDiff line change
@@ -1,14 +1,17 @@
11
## 6.1 启发性示例: 期望值估计
22

3-
接下来,我们通过考察均值估计问题,来演示如何将一个非递增(non-incremental)算法转换为递增(incremental)算法。
3+
接下来,我们通过考察均值估计问题,来演示如何将一个非增量式(non-incremental)算法转换为增量式(incremental)算法。
4+
5+
!!! note
6+
第一种非递增法是先收集所有样本,然后计算平均值。这种方法的缺点是,如果数据很多,我们可能需要等待很长时间才能收集到所有样本。第二种方法可可以克服这种问题,得到一次采样就更新一次,估计就会慢慢的变得准确。
47

58
考虑一个取值于有限集合$\mathcal{X}$的随机变量$X$。我们的目标是估计$\mathbb{E}[X]$。假设我们有一系列独立同分布的样本${x_i}_{i=1}^n$。$X$的期望值可以通过以下方式近似计算:
69

710
$$\mathbb{E}[X]\approx\bar{x}\doteq\frac{1}{n}\sum_{i=1}^nx_i.\tag{6.1}$$
811

912
$(6.1)$中的近似是蒙特卡罗估计的基本思想,如第$5$章所介绍。我们知道,根据大数定律,当$n\to\infty$,$\bar{x}\to\mathbb{E}[X]$。
1013

11-
接下来,我们将说明有两种方法可以用来计算$(6.1)$中的$\bar{x}$。第一种非递增法是先收集所有样本,然后计算平均值。这种方法的缺点是,如果样本数量较多,我们可能需要等待很长时间才能收集到所有样本。第二种方法可以避免这一缺点,因为它是以递增的方式计算平均值的。具体来说,假设
14+
接下来,我们将说明有两种方法可以用来计算$(6.1)$中的$\bar{x}$。第一种非增量式是先收集所有样本,然后计算平均值。这种方法的缺点是,如果样本数量较多,我们可能需要等待很长时间才能收集到所有样本。第二种方法可以避免这一缺点,因为它是以递增的方式计算平均值的。具体来说,假设
1215

1316
$$w_{k+1}=\frac{1}{k}\sum_{i=1}^{k}x_{i},\quad k=1,2,\ldots$$
1417

@@ -34,6 +37,7 @@ $(6.2)$的优势在于,每次收到样本时,我们都能立即计算出平
3437

3538
$$w_{k+1}=w_k-\alpha_k(w_k-x_k).\tag{6.4}$$
3639

37-
这种算法非常重要,在本章中经常使用。除了系数$1/k$被$\alpha_k>0$取代之外,它与$(6.2)$相同。由于没有给出$\alpha_k$的表达式,我们无法得到如$(6.3)$所示的$w_k$的明确表达式。不过,我们将在下一节证明,如果${\alpha_k}$满足一些温和条件,当$k\to\infty$时,$w_k \rightarrow \mathbb{E}[X]$。在第$7$章中,我们将看到时序差分算法有类似(但更复杂)的表达式。
38-
40+
这种算法非常重要,在本章中经常使用。除了系数$1/k$被$\alpha_k>0$取代之外,它与$(6.2)$相同。由于没有给出$\alpha_k$的表达式,我们无法得到如$(6.3)$所示的$w_k$的明确表达式。不过,我们将在下一节证明,如果${\alpha_k}$满足一些温和条件(mild conditions),当$k\to\infty$时,$w_k \rightarrow \mathbb{E}[X]$。在第$7$章中,我们将看到时序差分算法有类似(但更复杂)的表达式。
3941

42+
!!! note
43+
可以发现,我们在上章和本章中均利用期望值估计作为示例,这是因为强化学习中的许多量,都以期望值的方式定义,所以需要用数据去估计。

docs/Chapter-6/6-2.md

Lines changed: 26 additions & 17 deletions
Original file line numberDiff line numberDiff line change
@@ -1,20 +1,23 @@
1-
## 6.2 罗宾斯-门罗算法
1+
## 6.2 罗宾斯-门罗算法(Robbins-Monro)
22

3-
随机逼近是指解决寻根或优化问题的一大类随机迭代算法[24]与许多其他寻根(root-finding)算法如随机逼近法与梯度逼近法等相比,其强大之处在于无需表达目标函数或其导数
3+
随机近似是指解决寻根(方程求解)或优化问题的一大类随机迭代算法[24]与许多其他寻根算法如基于梯度的算法(梯度上升或梯度下降)等优化方法中,随机近似具有显著优势:它无需目标函数或其导数的解析表达式
44

5-
罗宾斯-门罗(Robbins-Monro,RM)算法是随机逼近领域的一项开创性工作 [24-27]。如第$6.4$节所示,著名的随机梯度下降算法就是RM算法的一种特殊形式。接下来我们将介绍RM算法的细节。
5+
罗宾斯-门罗(Robbins-Monro,RM)算法是随机近似领域的一项开创性工作 [24-27]。如第$6.4$节所示,著名的随机梯度下降算法就是RM算法的一种特殊形式。接下来我们将介绍RM算法的细节。
66

77
假设我们想找出方程的根
88

99
$$g(w)=0,$$
1010

1111
其中$w\in\mathbb{R}$是未知变量,$g:\mathbb{R} \rightarrow \mathbb{R}$是一个函数。许多问题都可以表述为寻根问题。例如,如果$J(w)$是一个需要优化的目标函数,那么这个优化问题可以转换为求解$g(w)=\nabla_wJ(w)=0.$。此外,$g(w) = c$(其中$c$是一个常数)这样的方程也可以通过将$g(w)-c$改写为一个新函数而转换为上述方程。
1212

13-
如果已知$g$的表达式或其导数,就可以使用许多算法。然而,我们面临的问题是函数$g$的表达式是未知的。例如,函数可以用人工神经网络来表示,而人工神经网络的结构和参数都是未知的。此外,我们只能获得$g(w)$的噪声观测值:
13+
!!! note
14+
梯度等于$0$是$J(w)$达到最大或最小的一个必要条件。
15+
16+
如果已知$g$的表达式或其导数,就可以使用许多算法。然而,我们面临的问题是函数$g$的表达式可能是未知的。例如,函数可以用人工神经网络来表示,而人工神经网络的结构和参数都是未知的。此外,我们只能获得$g(w)$的噪声观测值:
1417

1518
$$\tilde{g}(w,\eta)=g(w)+\eta,$$
1619

17-
其中$\eta\in\mathbb{R}$是观测误差,可能是高斯误差,也可能不是。总之,这是一个黑盒系统,只有输入$w$和噪声输出$\tilde{g}(w,\eta)$是已知的(见图$6.2$)。我们的目标是利用$w$和$\tilde{g}$求解$g(w) = 0$。
20+
其中$\eta\in\mathbb{R}$是观测误差,可能是高斯误差,也可能不是。总之,这是一个黑盒系统,只有输入$w$和噪声观测值$\tilde{g}(w,\eta)$是已知的(见图$6.2$)。我们的目标是利用$w$和$\tilde{g}$求解$g(w) = 0$。
1821

1922
![](../img/06/1.png)
2023
> 图$6.2$:由$w$和$\tilde{g}$求解 $g(w) = 0$问题的示意图。
@@ -37,19 +40,19 @@ $$w_{k+1}=w_k-a_k\tilde{g}(w_k,\eta_k),\quad k=1,2,3,\ldots\tag{6.5}$$
3740
请看图$6.4$所示的例子。在这个例子中,$g(w) = tanh(w-1)$。$g(w) = 0$的真根是$w^∗ = 1$。我们应用 RM 算法,$w_1 = 3,a_k = 1/k$。为了更好地说明收敛的原因,我们只需设置$\eta_k ≡ 0$,因此,$\tilde{g} (w_k, \eta_k) = g(w_k)$。这种情况下的RM算法为$w_{k+1} = w_k -a_k g(w_k)$。由RM算法生成的${w_k}$如图$6.4$所示。可以看出,$w_k$趋近于真正的根$w^∗ = 1$。
3841

3942
![](../img/06/3.png)
40-
> 图$6.4$:说明 RM 算法收敛性的示例
43+
> 图$6.4$:说明RM算法收敛性的示例
4144
42-
这个简单的例子可以说明 RM 算法收敛的原因
45+
这个简单的例子可以说明RM算法收敛的原因
4346

4447
- 当$w_k>w^*$时,我们有$g(w_k)>0$,此时,$w_{k+1}=w_k-a_kg(w_k)<w_k$。如果$|a_k g(w_k)|$足够小,我们有$w^*<w_{k+1}<w_k$。因此,$w_{k+1}$比$w_k$更接近于$w^*$。
4548
- 当$w_k<w^*$时,我们有$g(w_k)<0$,此时,$w_{k+1}=w_k-a_kg(w_k)>w_k$。如果$|a_k g(w_k)|$足够小,我们有$w^*>w_{k+1}>w_k$。因此,$w_{k+1}$比$w_k$更接近于$w^*$。
4649

47-
无论哪种情况,$w_{k+1}$都比$w_k$更接近$w^∗$。因此,直观地说,$wk$趋近于 $w^∗$。
50+
无论哪种情况,$w_{k+1}$都比$w_k$更接近$w^∗$。因此,直观地说,$w_k$趋近于 $w^∗$。
4851

49-
上面的例子很简单,因为观测误差被假定为零。分析存在随机观测误差时的收敛性并非易事。下面给出了一个严格的收敛结果。
52+
上面的例子很简单,因为观测误差被假定为零。若存在随机观测误差,其收敛性分析将变得非平凡。下面给出了一个严格的收敛结果。
5053

5154
!!! info
52-
**定理6.1**. (罗宾斯-门罗定理)。在$(6.5)$中的罗宾斯-门罗算法中,如果
55+
**定理6.1**. (罗宾斯-门罗定理)。在$(6.5)$中的罗宾斯-门罗算法中,如果满足
5356

5457
1. $0<c_{1}\leq\nabla_{w}g(w)\leq c_{2}\;for\;all\;w$;
5558

@@ -59,23 +62,26 @@ $$w_{k+1}=w_k-a_k\tilde{g}(w_k,\eta_k),\quad k=1,2,3,\ldots\tag{6.5}$$
5962

6063
在这里,$\mathcal{H}_{k}=\{w_{k},w_{k-1},\ldots\}$,那么$w_k$几乎肯定会收敛到满足$g(w^∗) = 0$的根 $w^∗$。
6164

62-
我们将该定理的证明推迟到第$6.3.3$节。本定理依赖于附录$B$中介绍的几乎确定收敛的概念。
65+
!!! note
66+
almost surely收敛。
67+
68+
我们将该定理的证明放到第$6.3.3$节。本定理依赖于附录$B$中介绍的几乎肯定收敛的概念。
6369

6470
定理$6.1$中的三个条件解释如下。
6571

6672
- 在第一个条件中,$0<c_{1}\leq\nabla_{w}g(w)$表示$g(w)$是一个单调递增函数。这个条件确保了$g(w) = 0$的根存在且唯一。如果$g(w)$是单调递减函数,我们只需将$-g(w)$视为单调递增的新函数即可。
6773

6874
在应用中,我们可以将目标函数为$J(w)$的优化问题表述为寻根问题:$g(w)=\nabla_{w}J(w) = 0$。在这种情况下,$g(w)$单调递增的条件表明 $J(w)$是凸的,这是优化问题中通常采用的假设。
6975

70-
不等式$\nabla_{w}g(w)\leq c_2$表示$g(w)$的梯度从上而下有界。例如,$g(w) = tanh(w - 1)$满足这一条件,但$g(w) = w^3 - 5$不满足这一条件。
76+
不等式$\nabla_{w}g(w)\leq c_2$表示$g(w)$的梯度有有界。例如,$g(w) = tanh(w - 1)$满足这一条件,但$g(w) = w^3 - 5$不满足这一条件。
7177

72-
- 关于\{a_k\}的第二个条件很有趣。我们在强化学习算法中经常看到类似的条件。特别地,条件$\sum_{k=1}^{\infty} a_k^2 < \infty$意味着$\lim_{n \to \infty} \sum_{k=1}^{n} a_k^2$是有上界的。这要求$a_k$随着$k \to \infty$收敛于零。条件$\sum_{k=1}^{\infty} a_k = \infty$意味着$\lim_{n \to \infty} \sum_{k=1}^{n} a_k$是无限大的。它要求$a_k$不应该收敛于零得太快。这些条件有着有趣的性质,稍后会详细分析。
78+
- 关于$\{a_k\}$的第二个条件很有趣。我们在强化学习算法中经常看到类似的条件。特别地,条件$\sum_{k=1}^{\infty} a_k^2 < \infty$意味着$\lim_{n \to \infty} \sum_{k=1}^{n} a_k^2$是有上界的。这要求$a_k$随着$k \to \infty$收敛于零。条件$\sum_{k=1}^{\infty} a_k = \infty$意味着$\lim_{n \to \infty} \sum_{k=1}^{n} a_k$是无限大的。它要求$a_k$不应该收敛于零得太快。这些条件有着有趣的性质,稍后会详细分析。
7379

74-
- 第三个条件是温和的。它不要求观测误差$\eta_k$是高斯分布的。一个重要的特例是$\{\eta_k\}$是一个独立同分布的随机序列,满足$\mathbb{E}[\eta_k] = 0$和$\mathbb{E}[\eta_k^2] < \infty$。在这种情况下,第三个条件是成立的,因为$\eta_k$与$\mathcal{H}_k$独立,因此我们有$\mathbb{E}[\eta_k|\mathcal{H}_k] = \mathbb{E}[\eta_k] = 0$和$\mathbb{E}[\eta_k^2|\mathcal{H}_k] = \mathbb{E}[\eta_k^2]$。
80+
- 第三个条件是温和的。它不要求观测误差$\eta_k$是高斯分布的。常见的特例是$\{\eta_k\}$是一个独立同分布的随机序列,满足$\mathbb{E}[\eta_k] = 0$和$\mathbb{E}[\eta_k^2] < \infty$。在这种情况下,第三个条件是成立的,因为$\eta_k$与$\mathcal{H}_k$独立,因此我们有$\mathbb{E}[\eta_k|\mathcal{H}_k] = \mathbb{E}[\eta_k] = 0$和$\mathbb{E}[\eta_k^2|\mathcal{H}_k] = \mathbb{E}[\eta_k^2]$。
7581

7682
接下来,我们将更仔细地研究关于系数${ak}$的第二个条件。
7783

78-
- 为什么第二个条件对 RM 算法的收敛很重要
84+
- 为什么第二个条件对RM算法的收敛很重要
7985

8086
这个问题自然可以在我们稍后对上述定理进行严格证明时找到答案。在此,我们想提供一些具有洞察力的直觉。
8187

@@ -117,15 +123,18 @@ $$w_{k+1}=w_k-a_k\tilde{g}(w_k,\eta_k),\quad k=1,2,3,\ldots\tag{6.5}$$
117123

118124
总之,序列 $\{a_k = 1/k\}$ 满足定理$6.1$中的第二个条件。值得注意的是,稍微修改一下,例如$a_k = 1/(k+1)$或$a_k = c_k/k$,其中$c_k$是有界的,也能保持这个条件。
119125

120-
在RM算法中,$a_k$通常被选作一个足够小的常数,在许多应用中。尽管第二个条件在此情况下不再满足,因为$\sum_{k=1}^{\infty} a_k^2 = \infty$而不是$\sum_{k=1}^{\infty} a_k^2 < \infty$,算法仍然能以某种方式收敛[24,1.5节]。此外,$g(x) = x^3 - 5$作为图$6.3$中的例子,虽然不满足第二个条件,但RM算法仍然可以找到根(如果初始猜测足够好)。
126+
在RM算法中,$a_k$通常被选作一个足够小的常数,在许多情况下,尽管第二个条件不再被满足,因为$\sum_{k=1}^{\infty} a_k^2 = \infty$而不是$\sum_{k=1}^{\infty} a_k^2 < \infty$,算法仍然能以某种方式收敛[24,1.5节]。此外,$g(x) = x^3 - 5$作为图$6.3$中的例子,虽然不满足第二个条件,但RM算法仍然可以找到根(如果初始猜测足够好)。
127+
128+
!!! note
129+
如果$a_k=1/k$,当$k$比较大时,后面的数据所起到的作用就非常小了,所以希望未来的数据仍然可以有用,就让$a_k$趋近于一个非常小的数而非$0$。
121130

122131
### 6.2.2 在期望值估计问题中的应用
123132

124133
接下来,我们运用罗宾斯-门罗定理来分析均值估计问题,该问题已在第$6.1$节中讨论过。回顾
125134

126135
$$w_{k+1}=w_k+\alpha_k(x_k-w_k)$$
127136

128-
这是均值估计算法$(6.4)$。当$a_k = 1/k$时,我们可以得到$w_{k+1}$的解析表达式,即$w_{k+1} = \frac{1}{k} \sum_{i=1}^{k} x_i$。然而,当给定一般的$a_k$时,我们无法获得解析表达式。在这种情况下,收敛分析是非平凡的。我们可以证明,在这种情况下,该算法是一个特殊的RM算法,因此其收敛性自然跟随。
137+
这是均值估计算法$(6.4)$。当$a_k = 1/k$时,我们可以得到$w_{k+1}$的解析表达式,即$w_{k+1} = \frac{1}{k} \sum_{i=1}^{k} x_i$。然而,当给定一般的$a_k$时,我们无法获得解析表达式。在当时,这个算法的收敛性无法得到证明。但我们现在可以证明,在这种情况下,该算法是一个特殊的RM算法,因此其收敛性自然跟随。
129138

130139
特别地,定义一个函数为
131140

docs/Chapter-6/6-3.md

Lines changed: 63 additions & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -4,7 +4,7 @@
44

55
本节的数学内容稍显密集。建议对随机算法收敛性分析感兴趣的读者学习这一部分。否则,可以跳过本节。
66

7-
!!! note 定理
7+
!!! info
88
**定理6.2**. (Dvoretzky 定理). 考虑一个随机过程
99

1010
$$\Delta_{k+1}=(1-\alpha_k)\Delta_k+\beta_k\eta_k,$$
@@ -30,3 +30,65 @@
3030

3131
见Box$6.3.1$。
3232

33+
### 6.3.2 应用于期望值估计
34+
35+
虽然均值估计算法$w_{k+1}=w_k+\alpha_k(x_k-w_k)$已经通过RM定理进行了分析,但我们接下来将展示,其收敛性也可以通过Dvoretzky定理直接证明。
36+
37+
**证明**. 令$w^*=\mathbb{E}[X]$。均值估计算法$w_{k+1}=w_k+\alpha_k(x_k-w_k)$可以重写为
38+
39+
$$w_{k+1}-w^*=w_k-w^*+\alpha_k(x_k-w^*+w^*-w_k).$$
40+
41+
令$\Delta=w-w^*$,这时我们得到
42+
43+
$$\begin{aligned}\Delta_{k+1}&=\Delta_{k}+\alpha_{k}(x_{k}-w^{*}-\Delta_{k})\\&=(1-\alpha_{k})\Delta_{k}+\alpha_{k}\underbrace{(x_{k}-w^{*})}_{\eta_{k}}.\end{aligned}$$
44+
45+
由于${x_k}$是独立同分布的,我们有$\mathbb{E}[\eta_k|\mathcal{H}_k] =\mathbb{E}[x_k-w^*|\mathcal{H}_k] = 0$,且$\mathbb{E}[\eta_{k}^{2}|\mathcal{H}_{k}]=\mathbb{E}[x_{k}^{2}|\mathcal{H}_{k}]-(w^{*})^{2}=\mathbb{E}[x_{k}^{2}]-(w^{*})^{2}$是有界的(如果$x_k$的方差是有限的)。根据Dvoretzky定理,我们得出结论:$\Delta_k$收敛到零,因此$w_k$几乎必然收敛到$w^∗ = \mathbb{E}[X]$。
46+
47+
### 6.3.3 应用于证明罗宾斯-门罗定理
48+
49+
现在,我们可以用Dvoretzky定理来证明罗宾斯-门罗定理了。
50+
51+
**对罗宾斯-门罗定理的证明**. RM算法的目的是找到$g(w) = 0$的根。 假设根是 $w∗$使得$g(w^∗) = 0$,则RM算法的迭代公式为
52+
53+
$$\begin{aligned}w_{k+1}&=w_{k}-a_{k}\tilde{g}(w_{k},\eta_{k})\\&=w_k-a_k[g(w_k)+\eta_k].\end{aligned}$$
54+
55+
这时我们有
56+
57+
$$w_{k+1}-w^*=w_k-w^*-a_k[g(w_k)-g(w^*)+\eta_k].$$
58+
59+
根据中值定理[7,8],可得$g(w_{k})-g(w^{*})=\nabla_{w}g(w_{k}^{\prime})(w_{k}-w^{*}),$在这里$w_k^\prime\in[w_k,w^*]$。令$\Delta_k= w_k-w^*$,上面公式可变为
60+
61+
$$\begin{gathered}\Delta_{k+1}=\Delta_k-a_k[\nabla_wg(w_k^{\prime})(w_k-w^*)+\eta_k]\\=\Delta_k-a_k\nabla_wg(w_k^{\prime})\Delta_k+a_k(-\eta_k)\\=[1-\underbrace{a_k\nabla_wg(w_k^{\prime})}_{\alpha_k}]\Delta_k+a_k(-\eta_k).\end{gathered}$$
62+
63+
注意到在假设条件下$\nabla_w g(w)$有界,即 $0 < c_1 \leq \nabla_w g(w) \leq c_2$。根据假设 $\sum_{k=1}^\infty a_k = \infty$且 $\sum_{k=1}^\infty a_k^2 < \infty$,可知 $\sum_{k=1}^\infty \alpha_k = \infty$且 $\sum_{k=1}^\infty \alpha_k^2 < \infty$。因此,Dvoretzky定理的所有条件均被满足,故 $\Delta_k$几乎必然收敛于零。
64+
65+
RM定理的证明展现了Dvoretzky定理的强大能力。特别地,证明中的$\alpha_k$是一个依赖于$w_k$的随机序列,而非确定性序列。在此情形下,Dvoretzky定理依然适用。
66+
67+
### 6.3.4 Dvoretzky定理的扩展
68+
69+
接下来,我们将Dvoretzky定理推广至一个能处理多变量的更一般形式。该广义定理由[32]提出,可用于分析$Q$学习等随机迭代算法的收敛性。
70+
71+
!!! info
72+
**定理6.3** 设 $\mathcal{S}$为有限实数集。对于随机过程
73+
74+
$$\Delta_{k+1}(s)=(1-\alpha_k(s))\Delta_k(s)+\beta_k(s)\eta_k(s),$$
75+
76+
对于所有 $s \in \mathcal{S}$,若以下条件满足,则 $\Delta_k(s)$几乎必然收敛于零:
77+
78+
(a) $\sum_k \alpha_k(s) = \infty$, $\sum_k \alpha^2_k(s) < \infty$,$\sum_k \beta^2_k(s) < \infty$, 且$\mathbb{E}[\beta_k(s)|\mathcal{H}_k] \leq \mathbb{E}[\alpha_k(s)|\mathcal{H}_k]$ 几乎必然一致成立
79+
80+
(b) $\|\mathbb{E}[\eta_k(s)|\mathcal{H}_k]\|_\infty\leq\gamma\|\Delta_k\|_\infty$,在这里$\gamma\in(0,1)$
81+
82+
(c) $\mathrm{var}[\eta_{k}(s)|\mathcal{H}_{k}]\leq C(1+\|\Delta_{k}(s)\|_{\infty})^{2},$在这里$C$是一个常数
83+
84+
此处,$H_k = \{\Delta_k, \Delta_{k-1}, \dots, \eta_{k-1}, \dots, \alpha_{k-1}, \dots, \beta_{k-1}, \dots \}$表示历史信息。术语 $\|\cdot\|_\infty$指代最大范数。
85+
86+
**证明**. 作为该定理的推广,其证明可基于 Dvoretzky定理完成。具体细节参见文献[32],此处从略。
87+
88+
以下给出关于该定理的一些说明。
89+
90+
- 我们首先阐明定理中的若干符号定义。变量$s$可视为索引指标,在强化学习语境中表征状态或状态-行动对。最大范数$\|\cdot\|_\infty$定义于集合之上,其与向量的 $L^\infty$范数概念相似但存在差异。具体而言:$\mathbb{E}[\eta_k(s)|\mathcal{H}_k] \|_\infty \doteq \max_{s \in \mathcal{S}} | \mathbb{E}[\eta_k(s)|\mathcal{H}_k] |$以及$\| \Delta_k(s) \|_\infty = \max_{s \in \mathcal{S}} | \Delta_k(s) |$
91+
92+
- 该定理比Dvoretzky定理更具普适性。首先,由于采用了最大范数运算,它能处理多变量情形,这对存在多重状态的强化学习问题至关重要;其次,Dvoretzky定理要求 $\mathbb{E}[\eta_k(s)|\mathcal{H}_k] =0$且 $\text{var}[\eta_k(s)|\mathcal{H}_k] \leq C$,而本定理仅需期望与方差被误差 $\Delta_k$界定。
93+
94+
- 需注意,$\Delta(s)$对所有 $s \in \mathcal{S}$的收敛性要求条件在每一 $s \in \mathcal{S}$上均成立。因此,在应用该定理证明强化学习算法收敛性时,需证明这些条件对每个状态(或状态-动作对)均成立。

0 commit comments

Comments
 (0)