线性回归之特征归一化、步长选择、特征组合

针对ng上的线性回归课程，几个技巧性的方法，现整理如下：
在求解线性回归的模型时，有三个需要注意的问题

一就是特征组合问题，比如房子的长和宽作为两个特征参与模型的构造，不如把其相乘得到面积然后作为一个特征来进行求解，这样在特征选择上就做了减少维度的工作。这个是多项式回归（Polynomial Regression）里面的一个重点问题。

二就是特征归一化（Feature Scaling），这也是许多机器学习模型都需要注意的问题。

三是步长的长度选，这回影响到收敛的速度，甚至是能不能收敛。

有些模型在各个维度进行不均匀伸缩后，最优解与原来不等价，例如SVM。对于这样的模型，除非本来各维数据的分布范围就比较接近，否则必须进行标准化，以免模型参数被分布范围较大或较小的数据dominate。

有些模型在各个维度进行不均匀伸缩后，最优解与原来等价，例如logistic regression。对于这样的模型，是否标准化理论上不会改变最优解。但是，由于实际求解往往使用迭代算法，如果目标函数的形状太“扁”，迭代算法可能收敛得很慢甚至不收敛。所以对于具有伸缩不变性的模型，最好也进行数据标准化。
归一化后有两个好处：

提升模型的收敛速度

如下图，x1的取值为0-2000，而x2的取值为1-5，假如只有这两个特征，对其进行优化时，会得到一个窄长的椭圆形，导致在梯度下降时，梯度的方向为垂直等高线的方向而走之字形路线，这样会使迭代很慢，相比之下，右图的迭代就会很快
线性回归之特征归一化、步长选择、特征组合

2.提升模型的精度

归一化的另一好处是提高精度，这在涉及到一些距离计算的算法时效果显著，比如算法要计算欧氏距离，上图中x2的取值范围比较小，涉及到距离计算时其对结果的影响远比x1带来的小，所以这就会造成精度的损失。所以归一化很有必要，他可以让各个特征对结果做出的贡献相同。

下边是常用归一化方法

1）. 线性归一化，线性归一化会把输入数据都转换到[0 1]的范围，公式如下

该方法实现对原始数据的等比例缩放，其中Xnorm为归一化后的数据，X为原始数据，Xmax、Xmin分别为原始数据集的最大值和最小值。

2）. 0均值标准化，0均值归一化方法将原始数据集归一化为均值为0、方差1的数据集，归一化公式如下：

其中，μ、σ分别为原始数据集的均值和方法。该种归一化方式要求原始数据的分布可以近似为高斯分布，否则归一化的效果会变得很糟糕。

关于归一化方法的选择

1）在分类、聚类算法中，需要使用距离来度量相似性的时候、或者使用PCA技术进行降维的时候，第二种方法(Z-score standardization)表现更好。

2）在不涉及距离度量、协方差计算、数据不符合正太分布的时候，可以使用第一种方法或其他归一化方法。比如图像处理中，将RGB图像转换为灰度图像后将其值限定在[0 255]的范围。

选择方法是参考自http://blog.csdn.net/zbc1090549839/article/details/44103801，至于为什么，我现在也还不清楚

线性回归之特征归一化、步长选择、特征组合

相关推荐