机器学习笔记二:监督学习应用:梯度下降

机器学习笔记二:监督学习应用:梯度下降


  • 例子:视频:算法学习司机驾驶实现自动驾驶

  • 例子:房价预测

面积 价格
2104 400
1416 232
1534 315
852 178
1940 240

引入符号:

  • m:表示训练样本个数
  • x:输入变量(特征)
  • y:输出变量(目标变量)
  • (x,y):训练样本
  • 第i个训练样本:()

    一般解决过程:

    Created with Raphaël 2.1.0
  • 如何表示假设,这里选择线性表示:

    注意,一般的,对于 有n个特征的假设公式:

  • 评估参数选取:

    目标即是通过不断改变参数使得取得一个最小的值:

    • 初始参数选择对梯度下降的影响:Matlab PPT例子:导致收敛于局部最优解

    • 梯度下降法更新参数策略:迭代法更新

      • 例子:针对仅有一个特征参数的情况

      更新:

      这里 代表学习率,手动设置。

    • 批梯度下降(batch gradient descent)

      算法不足:对大批量的训练集,下降需要的计算次数太多

    • 随机梯度下降(stochastic gradient descent):一次下降选择部分特征而非全部特征()

      即:重复

    • 最小化问题的代数解法

  • 求解问题的数学表达

  • 几个先导知识点:矩阵迹 的运算性质

    • 迹的定义:对于一个方阵,设主对角元素
    • 性质一:
    • 性质二:
    • 性质三:
    • 性质四:
    • 性质五:
  • 代数法的推导:

    为了求解最小值,可以通过极值来求解: