机器学习中的范数规则化

参考:http://blog.csdn.net/zouxy09/article/details/24971995/

         http://blog.csdn.net/zouxy09/article/details/24972869

        L0范数:向量中非0元素的个数,以L0范数正则化是希望更多的W为0。

        L1范数:向量中各个元素的绝对值之和。L0、L1都能实稀疏,但是

        (1)L0范数很难优化

        (2)L1范数是L0范数的最优凸近似,且比L0更容易优化求解。

        L2范数:向量各元素的平方和,然后求平方根。与L1范数不同,L2使每个元素都

   很小,而不是等于0(?),可以防止过拟合。

        L2与L1的区别

            (1)下降速度:优化时下降的坡度不同;

            (2)模型空间的限制:L1会趋向于选取少量特征,其他特征都是0;而L2会选择

       更多的特征,这些特征都会接近于0。所以L1-regularization会产生稀释性,而L2不会。