机器学习算法札记1_1:线性回归

机器学习算法笔记1_1:线性回归

形式

h(x)=i=0nθixi=θTx

代价函数:

J(θ)=12i=1m(h(x(i)θ)y(i))2
  1. LMS(Least Mean Squares)算法

    1. 参数更新原则
      梯度下降法,参数沿着使代价函数下降最快的方向改变,其中α为学习速率
      机器学习算法札记1_1:线性回归
      • 单样本更新
        机器学习算法札记1_1:线性回归
        机器学习算法札记1_1:线性回归
        可以看到,当误差(y(i)hθ(x(i)))越大时,参数更新幅度越大,反之较小。
        这只是针对一个样本的情况,当有多个样本时,有以下两种方法更新参数
      • 批处理算法
        机器学习算法札记1_1:线性回归
      • 随机梯度下降法(stochastic gradient descent)
        机器学习算法札记1_1:线性回归
        由于批处理算法每次更新都需要浏览整个数据集,所以,通常来说(特别是训练街特别大的时候),随机梯度下降法具有更快的收敛速度。
  2. LMS的矩阵表示

    1. 矩阵知识

      1. 矩阵导数
        机器学习算法札记1_1:线性回归

      2. 机器学习算法札记1_1:线性回归

        • 如果AB是方阵则trAB=trBA,同理
          机器学习算法札记1_1:线性回归

        • 其他性质
          机器学习算法札记1_1:线性回归
          机器学习算法札记1_1:线性回归
          (4)中要求A为非奇异矩阵

    2. 矩阵表示LMS
      机器学习算法札记1_1:线性回归
      机器学习算法札记1_1:线性回归
      (2)(3)可得
      机器学习算法札记1_1:线性回归
      所以
      机器学习算法札记1_1:线性回归
      其中第二步到第三步是因为J(θ)是一个实数,而对于实数a有a=tr(a)
      第三步到第四步是因为trA=trAT;
      第四步到第五步利用了公式(5),其中AT=θ,B=BT=XTX,C=I
      J(θ)最小时,其对于θ的导数为0,即有XTXθ=XTyθ=(XTX)1XTy
  3. 线性回归代价函数J解释

    • 形式:将目标变量和自变量通过下式联系起来:
      机器学习算法札记1_1:线性回归
      其中ϵ(i)是误差项并且假设它服从高斯(Gaussian)独立同分布(IID, independently and identically distributed)
      机器学习算法札记1_1:线性回归

      机器学习算法札记1_1:线性回归
      为了强调这个函数是由θ决定,我们将其称为似然函数:
      机器学习算法札记1_1:线性回归
      由于ϵ(i)是独立同分布的,所以
      机器学习算法札记1_1:线性回归
      根据最大似然法则,我们应该选择使上面似然概率最大的θ,为了方便,将其化为下面的对数似然函数形式
      机器学习算法札记1_1:线性回归
      所以,最大化似然函数等价于最小化下式:
      机器学习算法札记1_1:线性回归
      这就是我们前面提到的代价函数
  4. 局部加权线性回归(LWR locally weighted linear regression)
    机器学习算法札记1_1:线性回归
    ω很大时,该项在代价函数中的作用变得很明显;反之,对应项的误差将会被忽略。

    • 目的: 防止过拟合

    • ω的选择:
      机器学习算法札记1_1:线性回归
      x(i)为第i个样本点,x为查询点,两者越接近,对应项权重越靠近1,否则,趋近于0;τ被称为带宽(bandwidth)参数,它控制权重相对于x(i)x改变的快慢。
      这是我们接触的第一个非参数方法
      (斯坦福机器学习教程)