ML—线性回归系列（3）

ML—线性回归系列（三）

华电北风吹
天津大学认知计算与应用重点实验室
日期：2015/11/25

本文主要对岭回归(ridge regression)进行总结。
本系列的第一篇中线性回归的转化为如下的无约束优化问题
$\min_\theta \sum_{i=1}^{m}(y^{(i)}-\theta^Tx^{(i)})^2 \tag{0-1}$
其中， $x^{(i)}\in R^{n\times 1}$ 表示每个样本都是n维向量， $y^{(i)}$ 表示样本 $x^{(i)}$ 对应的标签， $\theta\in R^{n\times 1}$ 表示参数向量。与之等价的矩阵形式为
$\min_\theta ||X\theta-Y||_2^2 \tag{0-2}$
其中 $X=(x^{(1)},x^{(2)},...,x^{(m)})^T\in R^{m \times n},Y=(y^{(1)},y^{(2)},...,y^{(m)})^T$ .

一、岭回归
岭回归的目标表达式为
$\min \sum_{i=1}^{m}(y^{(i)}-\theta^Tx^{(i)})^2+\lambda \cdot ||\theta||_2^2 \tag{1-1}$
岭回归出现原因：为了防止特征之间线性相关。具体参考本系列第一篇线性回归的矩阵求解部分。

二、岭回归的矩阵求解
可以使用与最小二乘矩阵解法类似的矩阵求导来求解岭回归问题
令 $S(\theta)=\sum_{i=1}^{m}(y^{(i)}-\theta^Tx^{(i)})^2+\lambda \cdot ||\theta||_2$
$\frac{d}{d\theta}S(\theta)=\frac{d}{d\theta}S(\theta)=2X^T(Y-X\theta)+2\lambda \cdot\theta=0$
即 $X^TY=(X^TX-\lambda I) \cdot\theta$
解得：
$\theta=(X^TX-\lambda I)^{-1}X^TY \tag{2-1}$
可见，岭回归与线性回归具有类似的解形式，进一步可以发现岭回归对参数 $\theta$ 的每个分量进行了压缩。并且是方差波动大的方向压缩更高。

相关推荐