首页 > 机器学习 > 正文

梯度下降优化算法

标签:梯度下降优化算法, momentum, NAG, Adagrad, Adadelta, RMSprop, Adam


目录

梯度下降

momentum

如果在峡谷地区(某些方向较另一些方向上陡峭得多,常见于局部极值点),SGD会在这些地方附近振荡,从而导致收敛速度慢。这种情况下,动量(Momentum)便可以解决。动量在参数更新项中加上一次更新量(即动量项)。

\[ \\v_t=\gamma v_{t-1}+ \eta \triangledown _\theta\triangledown J(\theta) \\\theta=\theta-v_t \]

其中,\(\eta\)一开始初始化为0.5,后面变成0.9 http://ufldl.stanford.edu/tutorial/supervised/OptimizationStochasticGradientDescent/

NAG

Adagrad

Adadelta

RMSprop

Adam


原创文章,转载请注明出处!
本文链接:http://hxhlwf.github.io/posts/dl-optimization-methods.html
上篇: 海量数据相似数据查找方法
下篇: cvpr2017 hekaiming的Learning Deep Features for Visual Recognition

comment here..