机器学习中的范数规则化

参考：http://blog.csdn.net/zouxy09/article/details/24971995/

http://blog.csdn.net/zouxy09/article/details/24972869

L0范数：向量中非0元素的个数，以L0范数正则化是希望更多的W为0。

L1范数：向量中各个元素的绝对值之和。L0、L1都能实稀疏，但是

（1）L0范数很难优化

（2）L1范数是L0范数的最优凸近似，且比L0更容易优化求解。

L2范数：向量各元素的平方和，然后求平方根。与L1范数不同，L2使每个元素都

很小，而不是等于0（？），可以防止过拟合。

L2与L1的区别

（1）下降速度：优化时下降的坡度不同；

（2）模型空间的限制：L1会趋向于选取少量特征，其他特征都是0；而L2会选择

更多的特征，这些特征都会接近于0。所以L1-regularization会产生稀释性，而L2不会。