File tree 1 file changed +1
-3
lines changed
1 file changed +1
-3
lines changed Original file line number Diff line number Diff line change @@ -689,9 +689,7 @@ sigmoid函数和tanh函数两者共同的缺点是:在 _z_ 特别大或者特
689
689
690
690
ReLU和LeakyReLU的优点是:
691
691
* 第一,在 _ z_ 的区间变动很大的情况下,激活函数的导数或者激活函数的斜率都会远大于0,在程序实现就是一个** if-else** 语句,而** sigmoid** 函数需要进行浮点四则运算,在实践中,使用** ReLu** 激活函数神经网络通常会比使用** sigmoid** 或者** tanh** 激活函数学习的更快。
692
- * 第二,** sigmoid** 和** tanh** 函数的导数在正负饱和区的梯度都会接近于0,这会造成梯度弥散,而** Relu** 和** Leaky ReLu** 函数大于0部分都为常数,不会产生梯度弥散现象。(同时应该注意到的是,** Relu** 进入负半区的时候,梯度为0,神经元此时不会训练,产生所谓的稀疏性,而** Leaky ReLu** 不会有这问题)
693
-
694
- _ z_ 在ReLu的梯度一半都是0,但是,有足够的隐藏层使得z值大于0,所以对大多数的训练数据来说学习过程仍然可以很快。
692
+ * 第二,** sigmoid** 和** tanh** 函数的导数在正负饱和区的梯度都会接近于0,这会造成梯度弥散,而** Relu** 和** Leaky ReLu** 函数大于0部分都为常数,不会产生梯度弥散现象。(同时应该注意到的是,** Relu** 进入负半区的时候,梯度为0,神经元此时不会被训练(因为对应的W不会再更新),产生所谓的稀疏性,而** Leaky ReLu** 不会有这问题)。_ z_ 在ReLu的梯度一半都是0,但是,有足够的隐藏层使得z值大于0,所以对大多数的训练数据来说学习过程仍然可以很快。
695
693
696
694
** 概括一下不同激活函数的过程和结论:**
697
695
You can’t perform that action at this time.
0 commit comments