解密SVM系列（二）：SVM的理论基础

时间：2017-08-19 14:11:23 阅读：321 评论：0 收藏：0 [点我收藏+]

上节我们探讨了关于拉格朗日乘子和KKT条件。这为后面SVM求解奠定基础，本节希望通俗的细说一下原理部分。

一个简单的二分类问题例如以下图：
技术分享
我们希望找到一个决策面使得两类分开。这个决策面一般表示就是 $W^TX+b=0$ ,如今的问题是找到相应的W和b使得切割最好。知道logistic分类 机器学习之logistic回归与分类的可能知道，这里的问题和那里的一样。也是找权值。在那里，我们是依据每个样本的输出值与目标值得误差不断的调整权值W和b来求得终于的解的。当然这样的求解最优的方式仅仅是当中的一种方式。那么SVM的求优方式是如何的呢？

这里我们把问题反过来看，如果我们知道了结果。就是上面这样的分类线相应的权值W和b。

那么我们会看到，在这两个类里面，是不是总能找到离这个线近期的点。向以下这样：
技术分享
然后定义一下离这个线近期的点到这个分界面（线）的距离分别为d1,d2。

那么SVM找最优权值的策略就是，先找到最边上的点。再找到这两个距离之和D，然后求解D的最大值。想想如果依照这个策略是不是能够实现最优分类，是的。好了还是如果找到了这样一个分界面 $W^TX+b=0$ ,那么做离它近期的两类点且平行于分类面，如上面的虚线所看到的。

好了再如果我们有这两个虚线。那么真实的分界面我们觉得正好是这两个分界面的中间线，这样d1就等于d2了。由于真实的分界面为 $W^TX+b=0$ ，那么就把两个虚线分别设置为 $W^TX+b=1$ 和 $W^TX+b=-1$ 能够看到虚线相对于真实面仅仅是上下移动了1个单位距离。可能会说你怎么知道正好是一个距离？确实不知道，就如果上下是k个距离吧，那么如果上虚线如今为 $W^TX+b=k$ 。两边同一时候除k能够吧，这样上虚线还是能够变成 $W_1^TX+b_1=1$ ,同理下虚线也能够这样。然后他们的中线就是 $W_1^TX+b_1=0$ 吧。能够看到从k到1。权值无非从w变化到w1,b变到b1,我在让w=w1,b=b1，不是又回到了起点吗。也就是说，这个中间无非是一个倍数关系。所以我们仅仅须要先确定使得上下等于1的距离，再去找这一组权值。这一组权值会自己主动变化到一定倍数使得距离为1的。

好了再看看D=d1+d2怎么求吧，如果分界面 $W^TX+b=0$ 。再如果X是两维的。那么分界面再细写出来就是： $w_1x_1+w_2x_2+b=0$ 。上分界线： $w_1x_1+w_2x_2+b=1$ ，这是什么。两条一次函数（y=kx+b）的曲线是不是，那么初中就学过两直线的距离吧， $d=\dfrac{|c_2-c_1|}{\sqrt{w_1^2+w_2^2}}=\dfrac{1}{||W||}$

这里W=(w1,w2)，是个向量，||W||为向量的距离。那么 $||W||^2=W^TW$ 。下界面同理。

这样 $D=d1+d2=\dfrac{2}{||W||}=\dfrac{2}{\sqrt{W^TW}}等效\dfrac{2}{{W^TW}}$ ,要使D最大。就要使分母最小。这样优化问题就变为 $min(\dfrac{1}{2}W^TW)$ ,乘一个系数0.5没影响，可是在后面却实用。

我们知道。如果一个一次函数分界面为 $W^TX+b=0$ ，那么线上方的x能够使得 $W^TX+b>0$ ,下方的x能够使得 $W^TX+b<0$ 吧。那么对于上界面以上的点就有 $W^TX+b>1$ ，下界面以下的点就有 $W^TX+b<-1$ 。我们如今再如果上界面以上的点的分类标签为1，下界面以下的点的分类标签为-1。

那么这两个不等式再分别乘以他们的标签会怎么样？是不是能够统一为 $y_i(W^Tx_i+b)\ge 1$ 了（这也是为什么SVM在使用之前为什么要把两类标签设置为+1。-1，而不是0,1等等之类的了）。好了如果分界面一旦确定，是不是全部点都得满足这个关系。那么终于的带约束的优化问题转化为：

m i n 1 2 W T W s . t . y i (W x i + b) \geq 1

$min\quad \dfrac{1}{2}W^TW \\ s.t. \quad y_i(Wx_i+b) \ge 1$ 把约束条件换成小于号的形式：

s . t . 1 ? y i (W x i + b) \leq 0

$\\ s.t. \quad 1- y_i(Wx_i+b) \le 0$ 注意的是这可不是一个约束条件。而是对全部的每个样本xi都有一个这样的约束条件。
转换到这样的形式以后是不是非常像上节说到的KKT条件下的优化问题了。就是这个。

可是有一个问题。我们说上节的KKT是在凸函数下使用的，那么这里的目标函数是不是呢？答案是的。想想 $W^T*W$ ，函数乘出来应该非常单一，不能有非常多极点，当然也也能够数学证明是的。

好了那样的话就能够引入拉格朗日乘子法了，优化的目标变为：

L (w, b, α) = 1 2 w T w + α 1 h 1 (x) + . . . + α n h n (x) = 1 2 w T w ? α 1 [y 1 (w x 1 + b) ? 1] ? . . . ? α n [y n (w x n + b) ? 1] = 1 2 w T w ? \sum i = 1 N α i y i (w x i + b) + \sum i = 1 N α i

$L(w,b,\alpha)=\dfrac{1}{2}w^Tw+\alpha_1h_1(x)+...+\alpha_nh_n(x)\\=\dfrac{1}{2}w^Tw-\alpha_1[y_1(wx_1+b)-1]-...-\alpha_n[y_n(wx_n+b)-1]\\=\dfrac{1}{2}w^Tw-\sum_{i=1}^{N}\alpha_iy_i(wx_i+b)+\sum_{i=1}^{N}\alpha_i$
然后要求这个目标函数最优解，求导吧，

? L ? w = w ? \sum i = 1 N α i y i x i = 0 ? w = \sum i = 1 N α i y i x i ? L ? b = ? \sum i = 1 N α i y i = 0 ? \sum i = 1 N α i y i = 0

$\dfrac{\partial L}{\partial w}=w -\sum_{i=1}^{N}\alpha_iy_ix_i=0\Rightarrow w=\sum_{i=1}^{N}\alpha_iy_ix_i \\ \dfrac{\partial L}{\partial b}=-\sum_{i=1}^{N}\alpha_iy_i=0\Rightarrow \sum_{i=1}^{N}\alpha_iy_i=0$
这两个公式非常重要。简直是核心公式。
求导得到这个应该非常easy吧，那我问你为什么

WTW $W^TW$ 对w求导是w呢？如果你知道，那么你非常厉害了，反正開始我是一直没转过来。

事实上说起来也非常easy。如果光去看看为什么求导以后，转置就没了。不太好想明确，设想一下如果如今是二维样本点。也就是终于的W=(w1,w2)。那么 $W^TW=w1*w1+w2*w2$ 那么对w1求导就是2w1,对w2就是2w2,这样写在一起就是对w求导得到(2w1,2w2)=2w了。然后乘前面一个1/2（这也就是为什么要加一个1/2），就变成w了。

好了得到上面的两个公式，再带回L中把去w和b消掉，你又可能发现，w确实能够消，由于有等式关系，那b怎么办？上述对b求导的结果居然不含有b，上天在开玩笑吗？事实上没有，尽管没有b，可是有那个求和为0呀，带进去你会惊人的发现。b还真的能够消掉，就是由于了那个等式。

简单带下：

W (α) = L (w, b, α) = 1 2 (\sum i = 1 N α i y i x i) T (\sum j = 1 N α j y j x j) ? \sum i = 1 N α i y i ((\sum i = 1 N α i y i x i) x i + b) + \sum i = 1 N α i = 1 2 (\sum i, j = 1 N α i y i α j y j x i ? x j) ? \sum i, j = 1 N α i y i α j y j x i ? x j + b \sum i = 1 N α i y i + \sum i = 1 N α i = ? 1 2 (\sum i, j = 1 N α i y i α j y j x i ? x j) + \sum i = 1 N α i

$W(\alpha) = L(w,b,\alpha)=\dfrac{1}{2}(\sum_{i=1}^{N}\alpha_iy_ix_i )^T(\sum_{j=1}^{N}\alpha_jy_jx_j )-\\\sum_{i=1}^{N}\alpha_iy_i((\sum_{i=1}^{N}\alpha_iy_ix_i )x_i+b)+\sum_{i=1}^{N}\alpha_i\\=\dfrac{1}{2}(\sum_{i,j=1}^{N}\alpha_iy_i\alpha_jy_jx_i*x_j)-\sum_{i,j=1}^{N}\alpha_iy_i\alpha_jy_jx_i*x_j+b\sum_{i=1}^{N}\alpha_iy_i+\sum_{i=1}^{N}\alpha_i\\=-\dfrac{1}{2}(\sum_{i,j=1}^{N}\alpha_iy_i\alpha_jy_jx_i*x_j)+\sum_{i=1}^{N}\alpha_i\\$
那么求解最最開始的函数的最小值等价到这一步以后就是求解W的最大值了，由于使用了拉格朗日乘子法后，原问题就变为其对偶问题了，最小变成了最大，至于为什么，等到具体研究过对偶问题再来解释吧。不了解的。仅仅须要知道求W的极值就可以。

整理一下。经过这么一圈的转化。终于的问题为：

m a x W (α) = ? 1 2 (\sum i, j = 1 N α i y i α j y j x i ? x j) + \sum i = 1 N α i s . t . α i \geq 0 \sum i = 1 N α i y i = 0

$max \quad W(\alpha)=-\dfrac{1}{2}(\sum_{i,j=1}^{N}\alpha_iy_i\alpha_jy_jx_i*x_j)+\sum_{i=1}^{N}\alpha_i\\s.t. \quad \alpha_i\ge0\\ \quad \quad \quad \quad \sum_{i=1}^{N}\alpha_iy_i=0$
为什么有

αi≥0 $\alpha_i \ge 0$ ,这是上节说到的KKT条件的必须。至此问题来源部分到这。

细心的你肯可能会发现。上述全部的构造等等都是在数据全然线性可分，且分界面全然将两类分开。那么如果出现了以下这样的情况：
技术分享
正负两类的最远点没有明显的分解面，搞不好正类的最远点反而会跑到负类里面去了，负类最远点跑到正类里面去了，要是这样的话，你的分界面都找不到。由于你不可能找到将它们全然分开的分界面，那么这些点在实际情况是有的。就是一些离群点或者噪声点，由于这一些点导致整个系统用不了。当然如果不做不论什么处理确实用不了。可是我们处理一下就能够用了。SVM考虑到这样的情况，所以在上下分界面上增加松弛变量 $\epsilon_i$ ,觉得如果正类中有点到上界面的距离小于 $\epsilon_i$ ，那么觉得他是正常的点。哪怕它在上界面略微偏下一点的位置，同理下界面。还是以上面的情况，我们目測下的是理想的分解面应该是以下这样的情况：
技术分享
如果依照这样的分会发现4个离群点。他们到自己相应分界面的距离表示如上，理论上讲，我们给每个点都给一个自己的松弛变量 $\epsilon_i$ ，如果一个分界面求出来了，那么比較这个点到自己相应的界面（上、下界面）的距离是不是小于这个值，要是小于这个值。就觉得这个界面分的能够，比方上面的 $\epsilon_3$ 这个点。尽管看到明显偏离了正轨，可是计算发现它的距离d小于等于我们给的 $\epsilon_3$ ，那么我们说这个分界面能够接受。你可能会说那像上面的 $\epsilon_{10}$ ，距离那么远了，他肯定是大于预设给这个点的 $\epsilon_i$ 了对吧，确实是这样的，可是我们还发现什么？这个点是分对了的点呀。所以你管他大不大于预设值，反正不用调整分界面。

须要调整分界面的情况是仅仅有当相似 $\epsilon_3$ 这样的点的距离大于了 $\epsilon_3$ 的时候。

好了那么由于松弛变量的增加。导致每个点的约束条件就变化了点，像上界面以上的点，它满足的条件可能就是： $W^Tx_i+b\ge 1-\epsilon_i,\quad y_i=1$
而下界面可能就是： $W^Tx_i+b\le -1+\epsilon_i,\quad y_i=-1$
而且 $\epsilon_i \ge 0$ 。
统一在一起，整个问题就变成：

m i n 1 2 W T W + C \sum i = 1 N ? i s . t . 1 + ? i ? y i (W x i + b) \leq 0 ? i \geq 0

$min\quad \dfrac{1}{2}W^TW +C\sum_{i=1}^{N}\epsilon_i \\ s.t. \quad 1+\epsilon_i- y_i(Wx_i+b) \le 0\\\epsilon_i\ge 0$
你发现目标函数里面多了一点东西。而加上这个是合理的，我们在优化的同一时候。也使得总的松弛变量之和最小。常数C决定了松弛变量之和的影响程度。如果越大，影响越严重。那么在优化的时候会很多其它的注重全部点到分界面的距离，优先保证这个和小。
好了将问题写在一起吧：

L (x, α, β) = 1 2 W T W ? \sum i = 1 N α i (y i (W x i + b) + ? i ? 1) + C \sum i = 1 N ? i ? \sum i = 1 N r i ? i

$L(x,\alpha,\beta) = \dfrac{1}{2}W^TW- \sum_{i=1}^N\alpha_i(y_i(Wx_i+b)+\epsilon_i -1)+\\C\sum_{i=1}^N\epsilon_i -\sum_{i=1}^Nr_i\epsilon_i$
然后对

w,b,? $w,b,\epsilon$ 分别求导数：

? L ? w = w ? \sum i = 1 N α i y i x i = 0 ? w = \sum i = 1 N α i y i x i ? L ? b = ? \sum i = 1 N α i y i = 0 ? \sum i = 1 N α i y i = 0 ? L ? ? i = 0 ? C ? α i ? r i = 0

$\dfrac{\partial L}{\partial w}=w -\sum_{i=1}^{N}\alpha_iy_ix_i=0\Rightarrow w=\sum_{i=1}^{N}\alpha_iy_ix_i \\ \dfrac{\partial L}{\partial b}=-\sum_{i=1}^{N}\alpha_iy_i=0\Rightarrow \sum_{i=1}^{N}\alpha_iy_i=0\\\dfrac{\partial L}{\partial \epsilon_i}=0\Rightarrow C-\alpha_i-r_i=0$
观察第三个式子，由于

ri≥0 $r_i\ge0$ ,所以

c?αi≥0?αi≤C $c-\alpha_i \ge 0 \Rightarrow \alpha_i\le C$ ,结合

αi≥0 $\alpha_i\ge 0$ 那么

0≤αi≤C $0\le\alpha_i\le C$ ,把这三个导数结果带到目标函数中去消掉相应的w，b以及

ri $r_i$ ,你会惊人的发现。连

?i $\epsilon_i$ 也消掉了。而且目标函数和没有加松弛变量的一模一样：

W (α) = ? 1 2 (\sum i, j = 1 N α i y i α j y j x i ? x j) + \sum i = 1 N α i

$W(\alpha)=-\dfrac{1}{2}(\sum_{i,j=1}^{N}\alpha_iy_i\alpha_jy_jx_i*x_j)+\sum_{i=1}^{N}\alpha_i$
这么说。溜了一圈下来。无非多了个

αi≤C $\alpha_i\le C$ ,其它的什么也没有变，真好。那么统一一下。更一般的带松弛变量的优化函数以及约束条件就变为：

W (α) = ? 1 2 (\sum i, j = 1 N α i y i α j y j x i ? x j) + \sum i = 1 N α i s . t . 0 \leq α i \leq C \sum i = 1 N α i y i = 0

$W(\alpha)=-\dfrac{1}{2}(\sum_{i,j=1}^{N}\alpha_iy_i\alpha_jy_jx_i*x_j)+\sum_{i=1}^{N}\alpha_i\\s.t. \quad 0\le \alpha_i\le C\\ \quad \quad \quad \quad \sum_{i=1}^{N}\alpha_iy_i=0$

剩下的问题是怎么去找这样一组最优解 $\alpha_i$ 了。

看过上节的可能会知道。在上节的最后那个实例中也是寻找 $\alpha_i$ 。只是那里仅仅有两个 $\alpha_i$ 。而 $\alpha_i$ 要么等于0。要么大于0。而 $\alpha_i$ 大于0的时候，相应的另外一个因子就等于0。

然后讨论这四种情况找到满足解。

可是我们这里的 $\alpha_i$ 可不止2个，想挨着讨论是不行的，且这里的KKT条件和上节的那个还不太一样。那么这里的KKT条件是什么呢？具体又要怎么解这样一堆 $\alpha_i$ 的问题呢？请看下节的SMO算法求解SVM问题。

解密SVM系列（二）：SVM的理论基础

标签：art 理想是什么不等式 script 直线 alt 不能关于

原文地址：http://www.cnblogs.com/wzjhoutai/p/7396233.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行