解密SVM系列（二）：SVM的理论基础(转载)

上节我们探讨了关于拉格朗日乘子和KKT条件，这为后面SVM求解奠定基础，本节希望通俗的细说一下原理部分。

一个简单的二分类问题如下图：
解密SVM系列（二）：SVM的理论基础(转载)
我们希望找到一个决策面使得两类分开，这个决策面一般表示就是,现在的问题是找到对应的W和b使得分割最好，知道logistic分类 机器学习之logistic回归与分类的可能知道，这里的问题和那里的一样，也是找权值。在那里，我们是根据每一个样本的输出值与目标值得误差不断的调整权值W和b来求得最终的解的。当然这种求解最优的方式只是其中的一种方式。那么SVM的求优方式是怎样的呢？

这里我们把问题反过来看，假设我们知道了结果，就是上面这样的分类线对应的权值W和b。那么我们会看到，在这两个类里面，是不是总能找到离这个线最近的点，向下面这样：
解密SVM系列（二）：SVM的理论基础(转载)
然后定义一下离这个线最近的点到这个分界面（线）的距离分别为d1,d2。那么SVM找最优权值的策略就是，先找到最边上的点，再找到这两个距离之和D，然后求解D的最大值，想想如果按照这个策略是不是可以实现最优分类，是的。好了还是假设找到了这样一个分界面吧，可以看到从k到1，权值无非从w变化到w1,b变到b1,我在让w=w1,b=b1，不是又回到了起点吗，也就是说，这个中间无非是一个倍数关系。所以我们只需要先确定使得上下等于1的距离，再去找这一组权值，这一组权值会自动变化到一定倍数使得距离为1的。

好了再看看D=d1+d2怎么求吧，假设分界面

这里W=(w1,w2)，是个向量，||W||为向量的距离，那么,乘一个系数0.5没影响，但是在后面却有用。

我们知道，如果一个一次函数分界面为了（这也是为什么SVM在使用之前为什么要把两类标签设置为+1，-1，而不是0,1等等之类的了）。好了假设分界面一旦确定，是不是所有点都得满足这个关系。那么最终的带约束的优化问题转化为：

1

把约束条件换成小于号的形式：

0

，函数乘出来应该很单一，不能有很多极点，当然也也可以数学证明是的。

好了那样的话就可以引入拉格朗日乘子法了，优化的目标变为：

i

0

那么对w1求导就是2w1,对w2就是2w2,这样写在一起就是对w求导得到(2w1,2w2)=2w了，然后乘前面一个1/2（这也就是为什么要加一个1/2），就变成w了。

好了得到上面的两个公式，再带回L中把去w和b消掉，你又可能发现，w确实可以消，因为有等式关系，那b怎么办？上述对b求导的结果竟然不含有b，上天在开玩笑吗？其实没有，虽然没有b，但是有那个求和为0呀，带进去你会惊人的发现，b还真的可以消掉，就是因为了那个等式。简单带下：

=

解密SVM系列（二）：SVM的理论基础(转载)

相关推荐