机器学习算法札记1_1:线性回归
机器学习算法笔记1_1:线性回归
h(x)=∑i=0nθixi=θTx
J(θ)=12∑i=1m(h(x(i)θ)−y(i))2
形式
代价函数:
-
LMS(Least Mean Squares)算法
- 参数更新原则
梯度下降法,参数沿着使代价函数下降最快的方向改变,其中α 为学习速率- 单样本更新
可以看到,当误差(y(i)−hθ(x(i)) )越大时,参数更新幅度越大,反之较小。
这只是针对一个样本的情况,当有多个样本时,有以下两种方法更新参数 - 批处理算法
- 随机梯度下降法(stochastic gradient descent)
由于批处理算法每次更新都需要浏览整个数据集,所以,通常来说(特别是训练街特别大的时候),随机梯度下降法具有更快的收敛速度。
- 单样本更新
- 参数更新原则
-
LMS的矩阵表示
-
矩阵知识
- 矩阵导数
-
迹
如果
AB
是方阵则trAB=trBA
,同理其他性质
(4)
中要求A为非奇异矩阵
- 矩阵导数
- 矩阵表示LMS
由(2)(3)
可得
所以
其中第二步到第三步是因为J(θ) 是一个实数,而对于实数a有a=tr(a)
;
第三步到第四步是因为trA=trAT ;
第四步到第五步利用了公式(5)
,其中AT=θ,B=BT=XTX,C=I
当J(θ) 最小时,其对于θ 的导数为0,即有XTXθ=XTy 即θ=(XTX)−1XTy
-
-
线性回归代价函数
J
解释- 形式:将目标变量和自变量通过下式联系起来:
其中ϵ(i) 是误差项并且假设它服从高斯(Gaussian)独立同分布(IID, independently and identically distributed)
即
为了强调这个函数是由θ 决定,我们将其称为似然函数:
由于ϵ(i) 是独立同分布的,所以
根据最大似然法则,我们应该选择使上面似然概率最大的θ ,为了方便,将其化为下面的对数似然函数形式
所以,最大化似然函数等价于最小化下式:
这就是我们前面提到的代价函数
- 形式:将目标变量和自变量通过下式联系起来:
-
局部加权线性回归(LWR locally weighted linear regression)
当ω 很大时,该项在代价函数中的作用变得很明显;反之,对应项的误差将会被忽略。目的: 防止过拟合
ω 的选择:x(i) 为第i个样本点,x为查询点,两者越接近,对应项权重越靠近1,否则,趋近于0;τ 被称为带宽(bandwidth)参数,它控制权重相对于x(i)−x 改变的快慢。
这是我们接触的第一个非参数方法
(斯坦福机器学习教程)