深度学习---优化算法 一:机器学习中的常见优化算法回顾 二:吴恩达深度学习笔记 三:深度学习——优化器算法Optimizer详解(BGD、SGD、MBGD、Momentum、NAG、Adagrad、Adadelta、RMSprop、Adam)

机器学习基础---大规模机器学习

随机梯度下降法
Mini-Batch梯度下降
随机梯度下降收敛

二:吴恩达深度学习笔记

http://www.ai-start.com/dl2017/html/lesson2-week2.html

2.1 Mini-batch 梯度下降(Mini-batch gradient descent)

2.2 理解mini-batch梯度下降法(Understanding mini-batch gradient descent)

2.3 指数加权平均数(Exponentially weighted averages)

通俗理解指数加权平均(补充)

2.4 理解指数加权平均数(Understanding exponentially weighted averages)

2.5 指数加权平均的偏差修正(Bias correction in exponentially weighted averages)

2.6 动量梯度下降法(Gradient descent with Momentum)

参数更新时在一定程度上保留之前更新的方向,同时又利用当前batch的梯度微调最终的更新方向,简言之就是通过积累之前的动量来加速当前的梯度。

2.7 RMSprop

2.8 Adam 优化算法(Adam optimization algorithm)

2.9 学习率衰减(Learning rate decay)

2.10 局部最优的问题(The problem of local optima)

三:深度学习——优化器算法Optimizer详解(BGD、SGD、MBGD、Momentum、NAG、Adagrad、Adadelta、RMSprop、Adam)

https://www.yuque.com/yahei/hey-yahei/optimizer(比标题三更好,值得一看)