1- ## 6.2 罗宾斯-门罗算法
1+ ## 6.2 罗宾斯-门罗算法(Robbins-Monro)
22
3- 随机逼近是指解决寻根或优化问题的一大类随机迭代算法 [ 24] 。与许多其他寻根(root-finding)算法如随机逼近法与梯度逼近法等相比,其强大之处在于无需表达目标函数或其导数 。
3+ 随机近似是指解决寻根(方程求解)或优化问题的一大类随机迭代算法 [ 24] 。与许多其他寻根算法如基于梯度的算法(梯度上升或梯度下降)等优化方法中,随机近似具有显著优势:它无需目标函数或其导数的解析表达式 。
44
5- 罗宾斯-门罗(Robbins-Monro,RM)算法是随机逼近领域的一项开创性工作 [ 24-27] 。如第$6.4$节所示,著名的随机梯度下降算法就是RM算法的一种特殊形式。接下来我们将介绍RM算法的细节。
5+ 罗宾斯-门罗(Robbins-Monro,RM)算法是随机近似领域的一项开创性工作 [ 24-27] 。如第$6.4$节所示,著名的随机梯度下降算法就是RM算法的一种特殊形式。接下来我们将介绍RM算法的细节。
66
77假设我们想找出方程的根
88
99$$ g(w)=0, $$
1010
1111其中$w\in\mathbb{R}$是未知变量,$g:\mathbb{R} \rightarrow \mathbb{R}$是一个函数。许多问题都可以表述为寻根问题。例如,如果$J(w)$是一个需要优化的目标函数,那么这个优化问题可以转换为求解$g(w)=\nabla_wJ(w)=0.$。此外,$g(w) = c$(其中$c$是一个常数)这样的方程也可以通过将$g(w)-c$改写为一个新函数而转换为上述方程。
1212
13- 如果已知$g$的表达式或其导数,就可以使用许多算法。然而,我们面临的问题是函数$g$的表达式是未知的。例如,函数可以用人工神经网络来表示,而人工神经网络的结构和参数都是未知的。此外,我们只能获得$g(w)$的噪声观测值:
13+ !!! note
14+ 梯度等于$0$是$J(w)$达到最大或最小的一个必要条件。
15+
16+ 如果已知$g$的表达式或其导数,就可以使用许多算法。然而,我们面临的问题是函数$g$的表达式可能是未知的。例如,函数可以用人工神经网络来表示,而人工神经网络的结构和参数都是未知的。此外,我们只能获得$g(w)$的噪声观测值:
1417
1518$$ \tilde{g}(w,\eta)=g(w)+\eta, $$
1619
17- 其中$\eta\in\mathbb{R}$是观测误差,可能是高斯误差,也可能不是。总之,这是一个黑盒系统,只有输入$w$和噪声输出 $\tilde{g}(w,\eta)$是已知的(见图$6.2$)。我们的目标是利用$w$和$\tilde{g}$求解$g(w) = 0$。
20+ 其中$\eta\in\mathbb{R}$是观测误差,可能是高斯误差,也可能不是。总之,这是一个黑盒系统,只有输入$w$和噪声观测值 $\tilde{g}(w,\eta)$是已知的(见图$6.2$)。我们的目标是利用$w$和$\tilde{g}$求解$g(w) = 0$。
1821
1922 ![ ] ( ../img/06/1.png )
2023 > 图$6.2$:由$w$和$\tilde{g}$求解 $g(w) = 0$问题的示意图。
@@ -37,19 +40,19 @@ $$w_{k+1}=w_k-a_k\tilde{g}(w_k,\eta_k),\quad k=1,2,3,\ldots\tag{6.5}$$
3740请看图$6.4$所示的例子。在这个例子中,$g(w) = tanh(w-1)$。$g(w) = 0$的真根是$w^∗ = 1$。我们应用 RM 算法,$w_1 = 3,a_k = 1/k$。为了更好地说明收敛的原因,我们只需设置$\eta_k ≡ 0$,因此,$\tilde{g} (w_k, \eta_k) = g(w_k)$。这种情况下的RM算法为$w_ {k+1} = w_k -a_k g(w_k)$。由RM算法生成的${w_k}$如图$6.4$所示。可以看出,$w_k$趋近于真正的根$w^∗ = 1$。
3841
3942 ![ ] ( ../img/06/3.png )
40- > 图$6.4$:说明 RM 算法收敛性的示例 。
43+ > 图$6.4$:说明RM算法收敛性的示例 。
4144
42- 这个简单的例子可以说明 RM 算法收敛的原因 。
45+ 这个简单的例子可以说明RM算法收敛的原因 。
4346
4447- 当$w_k>w^* $时,我们有$g(w_k)>0$,此时,$w_ {k+1}=w_k-a_kg(w_k)<w_k$。如果$|a_k g(w_k)|$足够小,我们有$w^* <w_ {k+1}<w_k$。因此,$w_ {k+1}$比$w_k$更接近于$w^* $。
4548- 当$w_k<w^* $时,我们有$g(w_k)<0$,此时,$w_ {k+1}=w_k-a_kg(w_k)>w_k$。如果$|a_k g(w_k)|$足够小,我们有$w^* >w_ {k+1}>w_k$。因此,$w_ {k+1}$比$w_k$更接近于$w^* $。
4649
47- 无论哪种情况,$w_ {k+1}$都比$w_k$更接近$w^∗$。因此,直观地说,$wk $趋近于 $w^∗$。
50+ 无论哪种情况,$w_ {k+1}$都比$w_k$更接近$w^∗$。因此,直观地说,$w_k $趋近于 $w^∗$。
4851
49- 上面的例子很简单,因为观测误差被假定为零。分析存在随机观测误差时的收敛性并非易事 。下面给出了一个严格的收敛结果。
52+ 上面的例子很简单,因为观测误差被假定为零。若存在随机观测误差,其收敛性分析将变得非平凡 。下面给出了一个严格的收敛结果。
5053
5154!!! info
52- ** 定理6.1** . (罗宾斯-门罗定理)。在$(6.5)$中的罗宾斯-门罗算法中,如果
55+ ** 定理6.1** . (罗宾斯-门罗定理)。在$(6.5)$中的罗宾斯-门罗算法中,如果满足
5356
5457 1. $0<c_{1}\leq\nabla_{w}g(w)\leq c_{2}\;for\;all\;w$;
5558
@@ -59,23 +62,26 @@ $$w_{k+1}=w_k-a_k\tilde{g}(w_k,\eta_k),\quad k=1,2,3,\ldots\tag{6.5}$$
5962
6063 在这里,$\mathcal{H}_{k}=\{w_{k},w_{k-1},\ldots\}$,那么$w_k$几乎肯定会收敛到满足$g(w^∗) = 0$的根 $w^∗$。
6164
62- 我们将该定理的证明推迟到第$6.3.3$节。本定理依赖于附录$B$中介绍的几乎确定收敛的概念。
65+ !!! note
66+ almost surely收敛。
67+
68+ 我们将该定理的证明放到第$6.3.3$节。本定理依赖于附录$B$中介绍的几乎肯定收敛的概念。
6369
6470定理$6.1$中的三个条件解释如下。
6571
6672- 在第一个条件中,$0<c_ {1}\leq\nabla_ {w}g(w)$表示$g(w)$是一个单调递增函数。这个条件确保了$g(w) = 0$的根存在且唯一。如果$g(w)$是单调递减函数,我们只需将$-g(w)$视为单调递增的新函数即可。
6773
6874 在应用中,我们可以将目标函数为$J(w)$的优化问题表述为寻根问题:$g(w)=\nabla_ {w}J(w) = 0$。在这种情况下,$g(w)$单调递增的条件表明 $J(w)$是凸的,这是优化问题中通常采用的假设。
6975
70- 不等式$\nabla_ {w}g(w)\leq c_2$表示$g(w)$的梯度从上而下有界 。例如,$g(w) = tanh(w - 1)$满足这一条件,但$g(w) = w^3 - 5$不满足这一条件。
76+ 不等式$\nabla_ {w}g(w)\leq c_2$表示$g(w)$的梯度有有界 。例如,$g(w) = tanh(w - 1)$满足这一条件,但$g(w) = w^3 - 5$不满足这一条件。
7177
72- - 关于\{ a_k\} 的第二个条件很有趣。我们在强化学习算法中经常看到类似的条件。特别地,条件$\sum_ {k=1}^{\infty} a_k^2 < \infty$意味着$\lim_ {n \to \infty} \sum_ {k=1}^{n} a_k^2$是有上界的。这要求$a_k$随着$k \to \infty$收敛于零。条件$\sum_ {k=1}^{\infty} a_k = \infty$意味着$\lim_ {n \to \infty} \sum_ {k=1}^{n} a_k$是无限大的。它要求$a_k$不应该收敛于零得太快。这些条件有着有趣的性质,稍后会详细分析。
78+ - 关于$ \{ a_k\} $ 的第二个条件很有趣。我们在强化学习算法中经常看到类似的条件。特别地,条件$\sum_ {k=1}^{\infty} a_k^2 < \infty$意味着$\lim_ {n \to \infty} \sum_ {k=1}^{n} a_k^2$是有上界的。这要求$a_k$随着$k \to \infty$收敛于零。条件$\sum_ {k=1}^{\infty} a_k = \infty$意味着$\lim_ {n \to \infty} \sum_ {k=1}^{n} a_k$是无限大的。它要求$a_k$不应该收敛于零得太快。这些条件有着有趣的性质,稍后会详细分析。
7379
74- - 第三个条件是温和的。它不要求观测误差$\eta_k$是高斯分布的。一个重要的特例是 $\{ \eta_k\} $是一个独立同分布的随机序列,满足$\mathbb{E}[ \eta_k] = 0$和$\mathbb{E}[ \eta_k^2] < \infty$。在这种情况下,第三个条件是成立的,因为$\eta_k$与$\mathcal{H}_ k$独立,因此我们有$\mathbb{E}[ \eta_k|\mathcal{H}_ k] = \mathbb{E}[ \eta_k] = 0$和$\mathbb{E}[ \eta_k^2|\mathcal{H}_ k] = \mathbb{E}[ \eta_k^2] $。
80+ - 第三个条件是温和的。它不要求观测误差$\eta_k$是高斯分布的。常见的特例是 $\{ \eta_k\} $是一个独立同分布的随机序列,满足$\mathbb{E}[ \eta_k] = 0$和$\mathbb{E}[ \eta_k^2] < \infty$。在这种情况下,第三个条件是成立的,因为$\eta_k$与$\mathcal{H}_ k$独立,因此我们有$\mathbb{E}[ \eta_k|\mathcal{H}_ k] = \mathbb{E}[ \eta_k] = 0$和$\mathbb{E}[ \eta_k^2|\mathcal{H}_ k] = \mathbb{E}[ \eta_k^2] $。
7581
7682接下来,我们将更仔细地研究关于系数${ak}$的第二个条件。
7783
78- - 为什么第二个条件对 RM 算法的收敛很重要 ?
84+ - 为什么第二个条件对RM算法的收敛很重要 ?
7985
8086 这个问题自然可以在我们稍后对上述定理进行严格证明时找到答案。在此,我们想提供一些具有洞察力的直觉。
8187
@@ -117,15 +123,18 @@ $$w_{k+1}=w_k-a_k\tilde{g}(w_k,\eta_k),\quad k=1,2,3,\ldots\tag{6.5}$$
117123
118124 总之,序列 $\{ a_k = 1/k\} $ 满足定理$6.1$中的第二个条件。值得注意的是,稍微修改一下,例如$a_k = 1/(k+1)$或$a_k = c_k/k$,其中$c_k$是有界的,也能保持这个条件。
119125
120- 在RM算法中,$a_k$通常被选作一个足够小的常数,在许多应用中。尽管第二个条件在此情况下不再满足,因为$\sum_ {k=1}^{\infty} a_k^2 = \infty$而不是$\sum_ {k=1}^{\infty} a_k^2 < \infty$,算法仍然能以某种方式收敛[ 24,1.5节] 。此外,$g(x) = x^3 - 5$作为图$6.3$中的例子,虽然不满足第二个条件,但RM算法仍然可以找到根(如果初始猜测足够好)。
126+ 在RM算法中,$a_k$通常被选作一个足够小的常数,在许多情况下,尽管第二个条件不再被满足,因为$\sum_ {k=1}^{\infty} a_k^2 = \infty$而不是$\sum_ {k=1}^{\infty} a_k^2 < \infty$,算法仍然能以某种方式收敛[ 24,1.5节] 。此外,$g(x) = x^3 - 5$作为图$6.3$中的例子,虽然不满足第二个条件,但RM算法仍然可以找到根(如果初始猜测足够好)。
127+
128+ !!! note
129+ 如果$a_k=1/k$,当$k$比较大时,后面的数据所起到的作用就非常小了,所以希望未来的数据仍然可以有用,就让$a_k$趋近于一个非常小的数而非$0$。
121130
122131### 6.2.2 在期望值估计问题中的应用
123132
124133接下来,我们运用罗宾斯-门罗定理来分析均值估计问题,该问题已在第$6.1$节中讨论过。回顾
125134
126135$$ w_{k+1}=w_k+\alpha_k(x_k-w_k) $$
127136
128- 这是均值估计算法$(6.4)$。当$a_k = 1/k$时,我们可以得到$w_ {k+1}$的解析表达式,即$w_ {k+1} = \frac{1}{k} \sum_ {i=1}^{k} x_i$。然而,当给定一般的$a_k$时,我们无法获得解析表达式。在这种情况下,收敛分析是非平凡的。我们可以证明 ,在这种情况下,该算法是一个特殊的RM算法,因此其收敛性自然跟随。
137+ 这是均值估计算法$(6.4)$。当$a_k = 1/k$时,我们可以得到$w_ {k+1}$的解析表达式,即$w_ {k+1} = \frac{1}{k} \sum_ {i=1}^{k} x_i$。然而,当给定一般的$a_k$时,我们无法获得解析表达式。在当时,这个算法的收敛性无法得到证明。但我们现在可以证明 ,在这种情况下,该算法是一个特殊的RM算法,因此其收敛性自然跟随。
129138
130139特别地,定义一个函数为
131140
0 commit comments