Stanford机器学习[第二课]-监督学习应用跟梯度下降
说明:以下图片均来自课件PPT或学者笔记。
简介:本课内容有自主推导、线性回归、梯度下降、组梯度下降、随机梯度下降、标准方程推导。
本课内容讲起来不多,但是使用数学公式来推导的话有点让人难以理解,尤其是梯度下降那块。
1.监督学习
还是第一课的数据,住房面积和售价
通过数据可以得到这样一幅图
下面通过数学的方式描述这个问题。
在这个例子中,
下图是回归和分类的简单图示。
图一
图二
定义一个功能函数,
当我们试着预测的目标函数是连续的,如之前的房租价格预测例子,我们称这种问题为回归问题(regression problem),当y只是一个很小的特定范围取值,如预测一个住宅是居民房还是公寓房,我们称这中为一个分类问题。
下面介绍单变量的线性回归问题。
2.单参数线性回归-代价函数
还是原来的房屋价格预测数据
在这里加了一个特征房屋的卧室数量数。
即
得出这样一个假设:给出一个房屋大小和卧室数量,再加上一个常量值,可以预测出房屋价格。即这样一个预测公式:
简单变化下
其中n表示特征个数。
相应的,我们定义代价函数为:
下面讨论只有一个特征的线性回归问题,代价函数。
单变量线性回归——代价函数(Cost Function)
线性回归是给出一系列点假设拟合直线为
之所以说单参数是因为只有一个变量x,即影响回归参数
我们的目标是最小化代价函数,整个数值如下:
当有两个特征是,cost function是一个三维函数,绘图如下:
我们的目标主要是找到代价函数的最小值点,找到代价函数最小的算法有:
1.搜索算法
2.梯度下降算法
下面介绍梯度下降方法
3.梯度下降
梯度下降函数
每次沿着梯度下降的方向,有不同的走法,如下:
梯度下降走向1
梯度下降走向2
参数的变换公式:其中标出了梯度(框框内)和学习率(α):
gradient即J在该点的切线斜率slope,tanβ。下图所示分别为slope(gradient)为正和负的情况:
同时更新theta0和theta1,左边为正解:
对于不同的学习率
下图表示:无需逐渐减小α,就可以使下降幅度逐渐减小
对于梯度下降算法和线性回归模型,如下图解
代价函数通过对
得到最后的梯度下降算法推导公式:
其中x(i)表示输入数据x中的第i组数据。
对于组梯度下降是这样描述的。
References
相关博客:Rachel_Zhang Stanford机器学习—第一讲. Linear Regression with one variable
视频链接:http://open.163.com/movie/2008/1/B/O/M6SGF6VB4_M6SGHJ9BO.html?username=liudiwei99