本文介绍了机器学习中基本的优化算法—梯度下降算法和随机梯度下降算法，以及实际应用到线性回归、Logistic回归、矩阵分解推荐算法等ML中。

常见的符号说明和损失函数

个）平均误差最小，即：

或者平方误差最小，即：

机器学习算法（优化）之一：梯度下降算法、随机梯度下降（应用于线性回归、Logistic回归等等）
梯度下降算法基本公式
线性回归
Logistic回归
矩阵分解的推荐算法
随机梯度下降（SGD）
参考文献

梯度下降迭代公式

为了求解能最快找到最小值。即

线性回归

以多变量线性回归为例：
拟合函数如下：

Logistic回归

代价函数：
以Sigmoid函数（Logistic函数）为例说明：

y=1时，可以很好衡量某一个样本的代价。

迭代更新公式：
求导过程蛮复杂的，直接给出结果吧:

矩阵分解的推荐算法

可以参考我转载的另一篇文章：
http://www.cnblogs.com/kobedeshow/p/3651833.html?utm_source=tuicool&utm_medium=referral

随机梯度下降（SGD）

stochastic gradient descent

从梯度上升算法公式可以看出，每次更新回归系数时都需要遍历整个数据集。该方法在处理100个左右的数据集尚可，但是如果有数十亿的样本和成千万的特征，这种方法的计算复杂度就太高了。一种改进的方法是一次仅用一个样本点来更新回归系数。由于可以在新样本到来时，对分类器进行增量更新，因此是一个“在线学习”算法，而梯度下降算法一次处理所有的数据被称为“批处理”。更新公式如下：

参考文献

（1）Stanford机器学习—第三讲. 逻辑回归和过拟合问题的解决 logistic Regression & Regularization
http://blog.csdn.net/abcjennifer/article/details/7716281?locationNum=2
（2）机器学习入门：线性回归及梯度下降
http://blog.csdn.net/xiazdong/article/details/7950084
（3）梯度下降深入浅出
http://binhua.info/machinelearning/%E6%A2%AF%E5%BA%A6%E4%B8%8B%E9%99%8D%E6%B7%B1%E5%85%A5%E6%B5%85%E5%87%BA

机器学习算法（优化）之一：梯度下降算法、随机梯度下降（应用于线性回归、Logistic回归等等） 梯度下降算法基本公式 线性回归 Logistic回归 矩阵分解的推荐算法 随机梯度下降（SGD） 参考文献