Skip to content

Commit d537dd3

Browse files
authored
Update 2.improving-deep-neural-networks-2.optimization-algorithms.md
1 parent e2ed055 commit d537dd3

File tree

1 file changed

+4
-4
lines changed

1 file changed

+4
-4
lines changed

deep-learning/2.improving-deep-neural-networks-2.optimization-algorithms.md

+4-4
Original file line numberDiff line numberDiff line change
@@ -212,7 +212,7 @@ Python伪代码如下
212212

213213
本节中,我希望进一步探讨指数加权平均数算法的本质作用。回忆一下这个计算指数加权平均数的关键方程。
214214

215-
_v*t = β v*t - 1 + (1 - β )θ <sub>t</sub>_
215+
_v<sub>t</sub> = β v<sub>t - 1</sub> + (1 - β)θ <sub>t</sub>_
216216

217217
_β = 0.9_ 的时候,得到的结果是红线,如果它更接近于1,比如0.98,结果就是绿线,如果 _β_ 小一点,如果是0.5,结果就是上图中黄线。我们进一步地分析,来理解如何计算出每日温度的平均值。
218218

@@ -284,7 +284,7 @@ for i in range(100):
284284
<img src="https://raw.github.com/loveunk/deeplearning_ai_books/master/images/26a3c3022a7f7ae7ba0cd27fc74cbcf6.png" />
285285
</p>
286286

287-
_v*t = β v*t - 1 + (1 - β )θ <sub>t</sub>_
287+
_v<sub>t</sub> = β v<sub>t - 1</sub> + (1 - β )θ <sub>t</sub>_
288288

289289
在上一节中,这个(红色)曲线对应 _β_ 的值为0.9,这个(绿色)曲线对应的 _β_ = 0.98,如果你执行写在这里的公式,在 _β_ 等于0.98的时候,得到的并不是绿色曲线,而是紫色曲线,你可以注意到紫色曲线的起点较低,我们来看看怎么处理。
290290

@@ -405,10 +405,10 @@ for i in range(1, iterations):
405405

406406
你看这些微分,垂直方向的要比水平方向的大得多,所以斜率在 _b_ 方向特别大,所以这些微分中, _db_ 较大, _dW_ 较小。因为函数的倾斜程度,在纵轴上(b方向)要大于在横轴上( _W_ 方向)。 _db_ 的平方较大,所以 _S<sub>db</sub>_ 也会较大,而相比之下, _dW_ 会小一些,亦或 _dW_ 平方会小一些,因此 _S<sub>dW</sub>_ 会小一些,结果就是纵轴上的更新要被一个较大的数相除,就能消除摆动,而水平方向的更新则被较小的数相除。
407407

408-
409408
<p align="center">
410409
<img src="https://raw.github.com/loveunk/deeplearning_ai_books/master/images/d43cf7898bd88adff4aaac607c1bd5a1.png" />
411410
</p>
411+
412412
**RMSprop**的影响就是你的更新最后会变成这样(上图绿色线),纵轴方向上摆动较小,而横轴方向继续推进。还有个影响就是,你可以用一个更大学习率 _α_ ,然后加快学习,而无须在纵轴上垂直方向偏离。
413413

414414
要说明一点,我一直把纵轴和横轴方向分别称为 _b__W_ ,只是为了方便展示而已。实际中,你会处于参数的高维度空间,所以需要消除摆动的垂直维度,实际上是参数 _W<sub>1</sub>_ , _W<sub>2</sub>_ 等的合集,水平维度可能 _W<sub>3</sub>_ , _W<sub>4</sub>_ 等等。上面例子把 _W__b_ 分开只是方便说明。实际中 _dW_ 是一个高维度的参数向量, _db_ 也是一个高维度参数向量,但是你的直觉是,在你要消除摆动的维度中,最终你要计算一个更大的和值,这个平方和微分的加权平均值,所以你最后去掉了那些有摆动的方向。所以这就是**RMSprop**,全称是**均方根传递**,因为你将微分进行平方,然后最后使用平方根。
@@ -572,4 +572,4 @@ for i in range(1, iterations):
572572

573573
- [2. Improving Deep Neural Networks (Part 2)](https://github.com/loveunk/deep-learning-exercise-notebook/blob/master/2.%20Improving%20Deep%20Neural%20Networks/week6)
574574

575-
[回到首页](#深度神经网络调参和优化二)
575+
[回到首页](#深度神经网络调参和优化二)

0 commit comments

Comments
 (0)