机器学习笔记二:监督学习应用:梯度下降
机器学习笔记二:监督学习应用:梯度下降
例子:视频:算法学习司机驾驶实现自动驾驶
例子:房价预测
面积 | 价格 |
---|---|
2104 | 400 |
1416 | 232 |
1534 | 315 |
852 | 178 |
1940 | 240 |
引入符号:
- m:表示训练样本个数
- x:输入变量(特征)
- y:输出变量(目标变量)
- (x,y):训练样本
-
第i个训练样本:()
一般解决过程:
-
如何表示假设,这里选择线性表示:
注意,一般的,对于 有n个特征的假设公式:
-
评估参数选取:
目标即是通过不断改变参数使得取得一个最小的值:
初始参数选择对梯度下降的影响:Matlab PPT例子:导致收敛于局部最优解
-
梯度下降法更新参数策略:迭代法更新
- 例子:针对仅有一个特征参数的情况
更新:
这里 代表学习率,手动设置。
-
批梯度下降(batch gradient descent)
算法不足:对大批量的训练集,下降需要的计算次数太多
-
随机梯度下降(stochastic gradient descent):一次下降选择部分特征而非全部特征()
即:重复
最小化问题的代数解法
-
求解问题的数学表达
-
几个先导知识点:矩阵迹 的运算性质
- 迹的定义:对于一个方阵,设主对角元素
- 性质一:
- 性质二:
- 性质三:
- 性质四:
- 性质五:
-
代数法的推导:
为了求解最小值,可以通过极值来求解: