Skip to content

Commit 45afc95

Browse files
authored
update chapter 6
1 parent 518b6e4 commit 45afc95

2 files changed

Lines changed: 151 additions & 1 deletion

File tree

docs/Chapter-6/6-2.md

Lines changed: 119 additions & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -28,4 +28,122 @@ $$w_{k+1}=w_k-a_k\tilde{g}(w_k,\eta_k),\quad k=1,2,3,\ldots\tag{6.5}$$
2828
![](../img/06/2.png)
2929
> 图$6.3$:RM 算法示例。
3030
31-
为了说明RM算法,请看一个$g(w) = w^3 - 5$的例子。真根为$5^{1/3} ≈ 1.71$。现在,假设我们只能观察到输入$w$和输出 $\tilde{g}(w) = g(w) + \eta$,其中$\eta$为$i.i.d.$,服从均值为$0$,标准差为$1$的标准正态分布,初始猜测为 $w_1 = 0$,系数为$a_k = 1/k$。$w_k$的变化过程如图$6.3$所示。即使观测结果受到噪声$\eta_k$的干扰,估计值$w_k$仍然可以收敛到真正的根值。需要注意的是,必须正确选择初始猜测$w_1$,以确保$g(w) = w^3 - 5$这一特定函数的收敛性。在下面的小节中,我们将介绍 RM 算法收敛于任何初始猜测的条件。
31+
为了说明RM算法,请看一个$g(w) = w^3 - 5$的例子。真根为$5^{1/3} ≈ 1.71$。现在,假设我们只能观察到输入$w$和输出 $\tilde{g}(w) = g(w) + \eta$,其中$\eta$为$i.i.d.$,服从均值为$0$,标准差为$1$的标准正态分布,初始猜测为 $w_1 = 0$,系数为$a_k = 1/k$。$w_k$的变化过程如图$6.3$所示。即使观测结果受到噪声$\eta_k$的干扰,估计值$w_k$仍然可以收敛到真正的根值。需要注意的是,必须正确选择初始猜测$w_1$,以确保$g(w) = w^3 - 5$这一特定函数的收敛性。在下面的小节中,我们将介绍 RM 算法收敛于任何初始猜测的条件。
32+
33+
### 6.2.1 收敛特性
34+
35+
为什么$(6.5)$中的 RM 算法可以找到$g(w) = 0$的根?接下来我们用一个例子来说明这个想法,然后进行严格的收敛性分析。
36+
37+
请看图$6.4$所示的例子。在这个例子中,$g(w) = tanh(w-1)$。$g(w) = 0$的真根是$w^∗ = 1$。我们应用 RM 算法,$w_1 = 3,a_k = 1/k$。为了更好地说明收敛的原因,我们只需设置$\eta_k ≡ 0$,因此,$\tilde{g} (w_k, \eta_k) = g(w_k)$。这种情况下的RM算法为$w_{k+1} = w_k -a_k g(w_k)$。由RM算法生成的${w_k}$如图$6.4$所示。可以看出,$w_k$趋近于真正的根$w^∗ = 1$。
38+
39+
![](../img/06/3.png)
40+
> 图$6.4$:说明 RM 算法收敛性的示例。
41+
42+
这个简单的例子可以说明 RM 算法收敛的原因。
43+
44+
- 当$w_k>w^*$时,我们有$g(w_k)>0$,此时,$w_{k+1}=w_k-a_kg(w_k)<w_k$。如果$|a_k g(w_k)|$足够小,我们有$w^*<w_{k+1}<w_k$。因此,$w_{k+1}$比$w_k$更接近于$w^*$。
45+
- 当$w_k<w^*$时,我们有$g(w_k)<0$,此时,$w_{k+1}=w_k-a_kg(w_k)>w_k$。如果$|a_k g(w_k)|$足够小,我们有$w^*>w_{k+1}>w_k$。因此,$w_{k+1}$比$w_k$更接近于$w^*$。
46+
47+
无论哪种情况,$w_{k+1}$都比$w_k$更接近$w^∗$。因此,直观地说,$wk$趋近于 $w^∗$。
48+
49+
上面的例子很简单,因为观测误差被假定为零。分析存在随机观测误差时的收敛性并非易事。下面给出了一个严格的收敛结果。
50+
51+
!!! info
52+
**定理6.1**. (罗宾斯-门罗定理)。在$(6.5)$中的罗宾斯-门罗算法中,如果
53+
54+
1. $0<c_{1}\leq\nabla_{w}g(w)\leq c_{2}\;for\;all\;w$;
55+
56+
2. $\sum_{k=1}^{\infty}a_{k}=\infty \; and\; \sum_{k=1}^{\infty}a_{k}^{2}<\infty$;
57+
58+
3. $\mathbb{E}[\eta_{k}|\mathcal{H}_{k}]=0\; and\; \mathbb{E}[\eta_{k}^{2}|\mathcal{H}_{k}]<\infty$;
59+
60+
在这里,$\mathcal{H}_{k}=\{w_{k},w_{k-1},\ldots\}$,那么$w_k$几乎肯定会收敛到满足$g(w^∗) = 0$的根 $w^∗$。
61+
62+
我们将该定理的证明推迟到第$6.3.3$节。本定理依赖于附录$B$中介绍的几乎确定收敛的概念。
63+
64+
定理$6.1$中的三个条件解释如下。
65+
66+
- 在第一个条件中,$0<c_{1}\leq\nabla_{w}g(w)$表示$g(w)$是一个单调递增函数。这个条件确保了$g(w) = 0$的根存在且唯一。如果$g(w)$是单调递减函数,我们只需将$-g(w)$视为单调递增的新函数即可。
67+
68+
在应用中,我们可以将目标函数为$J(w)$的优化问题表述为寻根问题:$g(w)=\nabla_{w}J(w) = 0$。在这种情况下,$g(w)$单调递增的条件表明 $J(w)$是凸的,这是优化问题中通常采用的假设。
69+
70+
不等式$\nabla_{w}g(w)\leq c_2$表示$g(w)$的梯度从上而下有界。例如,$g(w) = tanh(w - 1)$满足这一条件,但$g(w) = w^3 - 5$不满足这一条件。
71+
72+
- 关于\{a_k\}的第二个条件很有趣。我们在强化学习算法中经常看到类似的条件。特别地,条件$\sum_{k=1}^{\infty} a_k^2 < \infty$意味着$\lim_{n \to \infty} \sum_{k=1}^{n} a_k^2$是有上界的。这要求$a_k$随着$k \to \infty$收敛于零。条件$\sum_{k=1}^{\infty} a_k = \infty$意味着$\lim_{n \to \infty} \sum_{k=1}^{n} a_k$是无限大的。它要求$a_k$不应该收敛于零得太快。这些条件有着有趣的性质,稍后会详细分析。
73+
74+
- 第三个条件是温和的。它不要求观测误差$\eta_k$是高斯分布的。一个重要的特例是$\{\eta_k\}$是一个独立同分布的随机序列,满足$\mathbb{E}[\eta_k] = 0$和$\mathbb{E}[\eta_k^2] < \infty$。在这种情况下,第三个条件是成立的,因为$\eta_k$与$\mathcal{H}_k$独立,因此我们有$\mathbb{E}[\eta_k|\mathcal{H}_k] = \mathbb{E}[\eta_k] = 0$和$\mathbb{E}[\eta_k^2|\mathcal{H}_k] = \mathbb{E}[\eta_k^2]$。
75+
76+
接下来,我们将更仔细地研究关于系数${ak}$的第二个条件。
77+
78+
- 为什么第二个条件对 RM 算法的收敛很重要?
79+
80+
这个问题自然可以在我们稍后对上述定理进行严格证明时找到答案。在此,我们想提供一些具有洞察力的直觉。
81+
82+
首先,$\sum_{k=1}^{\infty} a_k^2 < \infty$表示当$k \to \infty$,有$a_k \to 0$。为什么这个条件重要?假设观测值$\tilde{g}(w_k, \eta_k)$ 总是有界的。由于
83+
84+
$$w_{k+1} - w_k = -a_k g(w_k, \eta_k),$$
85+
86+
如果$a_k \to 0$,那么$a_k \tilde{g}(w_k, \eta_k) \to 0$,因此$w_{k+1} - w_k \to 0$,这表明当$k \to \infty$时,$w_{k+1}$和$w_k$会互相接近。如果$a_k$不收敛,则 $w_k$可能在$k \to \infty$时波动。
87+
88+
其次,$\sum_{k=1}^{\infty} a_k = \infty$表示$a_k$不应该收敛得太快。为什么这个条件重要?总结方程两边$w_2-w_1=a_1\tilde{g}(w_1,\eta_1)$,$w_3-w_2=-a_2\tilde{g}(w_2,\eta_2)$,$w_4-w_3=-a_3\tilde{g}(w_3,\eta_3)$得到
89+
90+
$$w_1 - w_\infty = \sum_{k=1}^{\infty} a_k g(w_k, \eta_k)。$$
91+
92+
如果$\sum_{k=1}^{\infty} a_k < \infty$,则 $|\sum_{k=1}^{\infty} a_k g(w_k, \eta_k)|$ 也是有界的。令$b$表示一个有限的上界,使得
93+
94+
$$|w_1 - w_\infty| = \left|\sum_{k=1}^{\infty} a_k g(w_k, \eta_k)\right| \leq b.\tag{6.6}$$
95+
96+
如果初始猜测$w_1$远离真实解$w^*$,使得$|w_1 - w^*| > b$,则根据式$(6.6)$,不可能得到$w_\infty = w^*$。这表明RM算法在这种情况下无法找到真实解$w^*$。因此,条件$\sum_{k=1}^{\infty} a_k = \infty$是确保在任意初始猜测条件下收敛的必要条件。
97+
98+
- 哪些序列满足$\sum_{k=1}^{\infty} a_k = \infty$和$\sum_{k=1}^{\infty} a_k^2 < \infty$?
99+
100+
一个典型的序列是
101+
102+
$$a_k = \frac{1}{k}.$$
103+
104+
一方面,有
105+
106+
$$\lim_{n \to \infty} \left( \sum_{k=1}^{n} \frac{1}{k} - \ln n \right) = \kappa,$$
107+
108+
其中$\kappa \approx 0.577$被称为欧拉-马歇罗尼常数(或欧拉常数)[28]。由于$\lim_{n \to \infty} \ln n = \infty$,我们有
109+
110+
$$\sum_{k=1}^{\infty} \frac{1}{k} = \infty.$$
111+
112+
事实上,$H_n = \sum_{k=1}^{n} \frac{1}{k}$被称为微积分中的调和级数。另一方面,有
113+
114+
$$\sum_{k=1}^{\infty} \frac{1}{k^2} = \frac{\pi^2}{6} < \infty.$$
115+
116+
找到$\sum_{k=1}^{\infty} \frac{1}{k^2}$的值被称为巴塞尔问题[30]
117+
118+
总之,序列 $\{a_k = 1/k\}$ 满足定理$6.1$中的第二个条件。值得注意的是,稍微修改一下,例如$a_k = 1/(k+1)$或$a_k = c_k/k$,其中$c_k$是有界的,也能保持这个条件。
119+
120+
在RM算法中,$a_k$通常被选作一个足够小的常数,在许多应用中。尽管第二个条件在此情况下不再满足,因为$\sum_{k=1}^{\infty} a_k^2 = \infty$而不是$\sum_{k=1}^{\infty} a_k^2 < \infty$,算法仍然能以某种方式收敛[24,1.5节]。此外,$g(x) = x^3 - 5$作为图$6.3$中的例子,虽然不满足第二个条件,但RM算法仍然可以找到根(如果初始猜测足够好)。
121+
122+
### 6.2.2 在期望值估计问题中的应用
123+
124+
接下来,我们运用罗宾斯-门罗定理来分析均值估计问题,该问题已在第$6.1$节中讨论过。回顾
125+
126+
$$w_{k+1}=w_k+\alpha_k(x_k-w_k)$$
127+
128+
这是均值估计算法$(6.4)$。当$a_k = 1/k$时,我们可以得到$w_{k+1}$的解析表达式,即$w_{k+1} = \frac{1}{k} \sum_{i=1}^{k} x_i$。然而,当给定一般的$a_k$时,我们无法获得解析表达式。在这种情况下,收敛分析是非平凡的。我们可以证明,在这种情况下,该算法是一个特殊的RM算法,因此其收敛性自然跟随。
129+
130+
特别地,定义一个函数为
131+
132+
$$g(w) = w - \mathbb{E}[X].$$
133+
134+
原始问题是求$\mathbb{E}[X]$的值。这个问题被表述为求解$g(w) = 0$的根。给定一个$w$的值,噪声观测值为$\tilde{g}(w, \eta) = w - x,$其中$x$是$X$的一个样本。注意$\tilde{g}$可以写为
135+
136+
$$\begin{aligned}\tilde{g}(w,\eta)&=w-x\\&=w-x+\mathbb{E}[X]-\mathbb{E}[X]\\&=(w-\mathbb{E}[X])+(\mathbb{E}[X]-x)\doteq g(w)+\eta,\end{aligned}$$
137+
138+
其中$\eta \doteq \mathbb{E}[X] - x$。
139+
140+
RM算法求解该问题的更新公式为
141+
142+
$$w_{k+1} = w_k - a_k \tilde{g}(w_k, \eta_k) = w_k - a_k (w_k - x_k),$$
143+
144+
这正是$(6.4)$中的算法。因此,根据定理$6.1$,它保证$w_k$几乎必然收敛于$\mathbb{E}[X]$,且$\sum_{k=1}^{\infty} a_k = \infty$,$\sum_{k=1}^{\infty} a_k^2 < \infty$,并且$\{x_k\}$是独立同分布的。值得注意的是,收敛的性质不依赖于$X$的分布。
145+
146+
147+
148+
149+

docs/Chapter-6/6-3.md

Lines changed: 32 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,32 @@
1+
## 6.3 Dvoretzky定理
2+
3+
到目前为止,RM算法的收敛性尚未得到理论证明。为此,我们接下来介绍Dvoretzky 定理[31, 32],它是随机逼近领域的一个经典结果。该定理可用于分析 RM 算法和许多强化学习算法的收敛性。
4+
5+
本节的数学内容稍显密集。建议对随机算法收敛性分析感兴趣的读者学习这一部分。否则,可以跳过本节。
6+
7+
!!! note 定理
8+
**定理6.2**. (Dvoretzky 定理). 考虑一个随机过程
9+
10+
$$\Delta_{k+1}=(1-\alpha_k)\Delta_k+\beta_k\eta_k,$$
11+
12+
其中$\{\alpha_k\}_{k=1}^\infty$, $\{\beta_k\}_{k=1}^\infty$, $\{\eta_k\}_{k=1}^\infty$是随机序列。对于所有$k$有$\alpha_k\geq 0,\beta_k\geq 0$。那么,如果满足以下条件,$\Delta_k$几乎必然收敛为零
13+
14+
(a) $\sum_{k=1}^{\infty}\alpha_{k}=\infty,\sum_{k=1}^{\infty}\alpha_{k}^{2}<\infty,$并且$\sum_{k=1}^\infty\beta_k^2<\infty$几乎必然一致的;
15+
16+
(b) $\mathbb{E}[\eta_k|\mathcal{H}_k]=0$与$\mathbb{E}[\eta_{k}^{2}|\mathcal{H}_{k}]\leq C$是几乎必然的;
17+
18+
在这里$\mathcal{H}_k=\{\Delta_k,\Delta_{k-1},...,\eta_{k-1},...,\alpha_{k-1},...,\beta_{k-1},...\}$。
19+
20+
在介绍该定理的证明之前,我们首先要澄清一些问题。
21+
22+
- 在 RM 算法中,系数序列$\{\alpha_k\}$是确定的。然而,Dvoretzky定理允许$\{\alpha_k\},\{\beta_k\}$成为取决于$\mathcal{H}_k$的随机变量。因此,在$\alpha_k$或$\beta_k$是$\Delta_k$的函数的情况下,该定理更为有用。
23+
24+
- 第一个条件是 "几乎必然一致"。这是因为$\alpha_k$和$\beta_k$可能是随机变量,因此它们的极限定义必须在随机情况下。第二个条件也表述为"几乎必然"。这是因为$\mathcal{H}k$是一个随机变量序列,而不是具体的值。因此,$\mathbb{E}[\eta_{k}|\mathcal{H}_{k}]$和$\mathbb{E}[\eta_{k}^{2}|\mathcal{H}_{k}]$都是随机变量。在这种情况下,条件期望的定义是以“几乎必然”的意义给出的(附录 $B$)。
25+
26+
- 定理$6.2$的陈述与[32]略有不同,因为定理$6.2$的第一个条件中并不要求$\sum_{k=1}^{\infty}\beta_{k}=\infty$。当$\sum_{k=1}^{\infty}\beta_{k}<\infty$时,特别是当$\beta_k = 0$对所有$k$成立时,该序列仍然可以收敛。
27+
28+
29+
### 6.3.1 Dvoretzky的证明
30+
31+
见Box$6.3.1$。
32+

0 commit comments

Comments
 (0)