解密SVM系列（一）：关于拉格朗日乘子法和KKT条件

时间：2015-08-17 19:33:39 阅读：1322 评论：0 收藏：0 [点我收藏+]

写在之前

支持向量机（SVM），一个神秘而众知的名字，在其出来就受到了莫大的追捧，号称最优秀的分类算法之一，以其简单的理论构造了复杂的算法，又以其简单的用法实现了复杂的问题，不得不说确实完美。
本系列旨在以基础化的过程，实例化的形式一探SVM的究竟。曾经也只用过集成化的SVM软件包，效果确实好。因为众人皆说原理复杂就对其原理却没怎么研究，最近经过一段时间的研究感觉其原理还是可以理解，这里希望以一个从懵懂到略微熟知的角度记录一下学习的过程。
其实网络上讲SVM算法的多不胜数，博客中也有许多大师级博主的文章，写的也很简单明了，可是在看过之和总是感觉像差点什么，当然对于那些基础好的可能一看就懂了，然而对于像我们这些薄基础的一遍下来也能马马虎虎懂，过一两天后又忘了公式怎么来的了。比如说在研究SVM之前，你是否听说过拉格朗日乘子法？你是否知道什么是对偶问题？你是否了解它们是怎么解决问题的？Ok这些不知道的话，更别说什么是KKT条件了，哈哈，有没有说到你的心声，不用怕，学学就会了。话说像拉格朗日乘子法，在大学里面学数学的话，不应该没学过，然你学会了吗？你知道是干什么的吗？如果那个时候就会了，那你潜质相当高了。作为一个刚过来的人，将以简单实例化形式记录自己的学习过程，力图帮助新手级学习者少走弯路。

（一）关于拉格朗日乘子法

首先来了解拉格朗日乘子法，那么为什么需要拉格朗日乘子法？记住，有拉格朗日乘子法的地方，必然是一个组合优化问题。那么带约束的优化问题很好说，就比如说下面这个：

m i n f = 2 x 21 + 3 x 22 + 7 x 23 s . t . 2 x 1 + x 2 = 1 2 x 2 + 3 x 3 = 2

$min \quad f = 2x_1^2+3x_2^2+7x_3^2 \\s.t. \quad 2x_1+x_2 = 1 \\ \quad \quad \quad 2x_2+3x_3 = 2$

这是一个带等式约束的优化问题，有目标值，有约束条件。那么想想假设没有约束条件这个问题是怎么求解的呢？是不是直接f对各个x求导等于0,，解x就可以了，可以看到没有约束的话，求导为0，那么各个x均为0吧，这样f=0了，最小。但是x都为0不满足约束条件呀，那么问题就来了。这里在说一点的是，为什么上面说求导为0就可以呢？理论上多数问题是可以的，但是有的问题不可以。如果求导为0一定可以的话，那么f一定是个凸优化问题，什么是凸的呢？像下面这个左图：
技术分享

凸的就是开口朝一个方向（向上或向下）。更准确的数学关系就是：

f ( x 1 ) + f ( x 2 ) 2 > f (x 1 + x 2 2) 或 者 f ( x 1 ) + f ( x 2 ) 2 < f (x 1 + x 2 2)

$\dfrac{f(x_1)+f(x_2)}{2}>f(\dfrac{x_1+x_2}{2})或者\\ \dfrac{f(x_1)+f(x_2)}{2}<f(\dfrac{x_1+x_2}{2})$
注意的是这个条件是对函数的任意x取值。如果满足第一个就是开口向上的凸，第二个是开口向下的凸。可以看到对于凸问题，你去求导的话，是不是只有一个极点，那么他就是最优点，很合理。类似的看看上图右边这个图，很明显这个条件对任意的x取值不满足，有时满足第一个关系，有时满足第二个关系，对应上面的两处取法就是，所以这种问题就不行，再看看你去对它求导，会得到好几个极点。然而从图上可以看到，只有其中一个极点是最优解，其他的是局部最优解，那么当真实问题的时候你选择那个？说了半天要说啥呢，就是拉格朗日法是一定适合于凸问题的，不一定适合于其他问题，还好我们最终的问题是凸问题。

回头再来看看有约束的问题，既然有了约束不能直接求导，那么如果把约束去掉不就可以了吗？怎么去掉呢？这才需要拉格朗日方法。既然是等式约束，那么我们把这个约束乘一个系数加到目标函数中去，这样就相当于既考虑了原目标函数，也考虑了约束条件，比如上面那个函数，加进去就变为：

m i n f = 2 x 21 + 3 x 22 + 7 x 23 + α 1 (2 x 1 + x 2 ? 1) + α 2 (2 x 2 + 3 x 3 ? 2)

$min \quad f = 2x_1^2+3x_2^2+7x_3^2 +\alpha _1(2x_1+x_2- 1)+\alpha _2(2x_2+3x_3 - 2)$
这里可以看到与

α1,α2 $\alpha_1,\alpha_2$ 相乘的部分都为0，所以

α1,α2 $\alpha_1,\alpha_2$ 的取值为全体实数。现在这个优化目标函数就没有约束条件了吧，既然如此，求法就简单了，分别对x求导等于0，如下：

? f ? x 1 = 4 x 1 + 2 α 1 = 0 ? x 1 = ? 0.5 α 1 ? f ? x 2 = 6 x 2 + α 1 + 2 α 2 = 0 ? x 2 = ? α 1 + 2 α 2 6 ? f ? x 3 = 14 x 3 + 3 α 2 = 0 ? x 3 = ? 3 α 3 14

$\dfrac{\partial f}{\partial x_1}=4x_1+2\alpha_1=0\Rightarrow x_1=-0.5\alpha_1 \\ \dfrac{\partial f}{\partial x_2}=6x_2+\alpha_1+2\alpha_2=0\Rightarrow x_2=-\dfrac{\alpha_1+2\alpha_2}{6} \\ \dfrac{\partial f}{\partial x_3}=14x_3+3\alpha_2=0\Rightarrow x_3=-\dfrac{3\alpha_3}{14}$

把它在带到约束条件中去，可以看到，2个变量两个等式，可以求解，最终可以得到 $\alpha_1=-0.39,\alpha_2=-1.63$ ,这样再带回去求x就可以了。那么一个带等式约束的优化问题就通过拉格朗日乘子法完美的解决了。那么更高一层的，带有不等式的约束问题怎么办？那么就需要用更一般化的拉格朗日乘子法即KKT条件来解决这种问题了。

（二）关于KKT条件

继续讨论关于带等式以及不等式的约束条件的凸函数优化。任何原始问题约束条件无非最多3种，等式约束，大于号约束，小于号约束，而这三种最终通过将约束方程化简化为两类：约束方程等于0和约束方程小于0。再举个简单的方程为例，假设原始约束条件为下列所示：

m i n f = x 21 ? 2 x 1 + 1 + x 22 + 4 x 2 + 4 s . t . x 1 + 10 x 2 > 10 10 x 1 ? 10 x 2 < 10

$min \quad f = x_1^2-2x_1+1+x_2^2+4x_2+4 \\s.t. \quad x_1+10x_2 > 10 \\ \quad \quad \quad 10 x_1-10x_2 < 10$
那么把约束条件变个样子：

s . t . 10 ? x 1 ? 10 x 2 < 0 10 x 1 ? x 2 ? 10 < 0

$s.t. \quad 10-x_1-10x_2 <0 \\ \quad \quad \quad 10x_1-x_2 - 10<0$

为什么都变成等号与小于号，方便后面的，反正式子的关系没有发生任何变化就行了。

现在将约束拿到目标函数中去就变成：

L (x, α) = f (x) + α 1 g 1 (x) + α 2 g 2 (x) = x 21 ? 2 x 1 + 1 + x 22 + 4 x 2 + 4 + α 1 (10 ? x 1 ? 10 x 2) + α 2 (10 x 1 ? x 2 ? 10)

$L(x,\alpha) = f(x) + \alpha_1g1(x)+\alpha_2g2(x)\\ =x_1^2-2x_1+1+x_2^2+4x_2+4+ \alpha_1(10-x_1-10x_2 ) +\\\alpha_2(10x_1-x_2 - 10)$
那么KKT条件的定理是什么呢？就是如果一个优化问题在转变完后变成

L (x, α, β) = f (x) + \sum α i g i (x) + \sum β i h i (x)

$L(x,\alpha,\beta) = f(x) + \sum\alpha_ig_i(x)+\sum\beta_ih_i(x)$
其中g是不等式约束，h是等式约束（像上面那个只有不等式约束，也可能有等式约束）。那么KKT条件就是函数的最优值必定满足下面条件：

(1) L对各个x求导为零；
(2) h(x)=0;
(3) $\sum\alpha_ig_i(x)=0，\alpha_i\ge0$

这三个式子前两个好理解，重点是第三个式子不好理解，因为我们知道在约束条件变完后，所有的g(x)<=0，且 $\alpha_i\ge0$ ，然后求和还要为0，无非就是告诉你，要么某个不等式 $g_i(x)=0$ ,要么其对应的 $\alpha_i=0$ 。那么为什么KKT的条件是这样的呢？

假设有一个目标函数，以及它的约束条件，形象的画出来就如下：
技术分享
假设就这么几个吧，最终约束是把自变量约束在一定范围，而函数是在这个范围内寻找最优解。函数开始也不知道该取哪一个值是吧，那就随便取一个，假设某一次取得自变量集合为x1*，发现一看，不满足约束，然后再换呀换，换到了x2*,发现可以了，但是这个时候函数值不是最优的，并且x2*使得g1(x)与g2(x)等于0了，而g3(x)还是小于0。这个时候，我们发现在x2的基础上再寻找一组更优解要靠谁呢？当然是要靠约束条件g1(x)与g2(x)，因为他们等于0了，很极限呀，一不小心，走错了就不满足它们两了，这个时候我们会选择g1(x)与g2(x)的梯度方向往下走，这样才能最大程度的拜托g1(x)与g2(x)=0的命运，使得他们满足小于0的约束条件对不对。至于这个时候需不需要管g2(x)呢？正常来说管不管都可以，如果管了，也取g3在x2*处的梯度的话，因为g3已经满足了小于0的条件，这个时候在取在x2*处的梯度，你能保证它是往好的变了还是往差的变了？答案是都有可能。运气好，往好的变了，可以更快得到结果，运气不好，往差的变了，反而适得其反。那么如果不管呢？因为g1(x)与g2(x)已经在边缘了，所以取它的梯度是一定会让目标函数变好的。综合来看，这个时候我们就不选g3。那么再往下走，假设到了自变量优化到了x3*，这个时候发现g2(x)与g3(x)等于0，也就是走到边了，而g1(x)小于0，可变化的空间绰绰有余，那么这个时候举要取g2(x)与g3(x)的梯度方向作为变化的方向，而不用管g1(x)。那么一直这样走呀走，最终找到最优解。可以看到的是，上述如果g1(x)、g2(x)=0的话，我们是需要优化它的，又因为他们本身的条件是小于0的，所以最终的公式推导上表明，是要乘以一个正系数 $\alpha$ 作为他们梯度增长的倍数，而那些不需要管的g(x)为了统一表示，这个时候可以将这个系数设置为0，那么这一项在这一次的优化中就没有了。那么把这两种综合起来就可以表示为
$\sum\alpha_ig_i(x)=0，\alpha_i\ge0$ 。
也即是某次的g(x)在为最优解起作用，那么它的系数值(可以)不为0。如果某次g(x)没有为下一次的最优解x的获得起到作用，那么它的系数就必须为0，这就是这个公式的含义。

比如上面例子的目标值与约束：

m i n f = x 21 ? 2 x 1 + 1 + x 22 + 4 x 2 + 4 s . t . 10 ? x 1 ? 10 x 2 < 0 10 x 1 ? x 2 ? 10 < 0

$min \quad f = x_1^2-2x_1+1+x_2^2+4x_2+4 \\s.t. \quad 10-x_1-10x_2 <0 \\ \quad \quad \quad 10x_1-x_2 - 10<0$
将约束提到函数中有：

L (x, α) = x 21 ? 2 x 1 + 1 + x 22 + 4 x 2 + 4 + α 1 (10 ? x 1 ? 10 x 2) + α 2 (10 x 1 ? x 2 ? 10)

$L(x,\alpha)= x_1^2-2x_1+1+x_2^2+4x_2+4+\\\alpha_1(10-x_1-10x_2)+\alpha_2(10x_1-x_2 - 10)$
此时分别对x1、x2求导数：

? L ? x 1 = 2 x 1 ? 2 ? α 1 + 10 α 2 = 0 ? x 1 = 0.5 (α 1 ? 10 α 2 + 2) ? L ? x 2 = 2 x 2 + 4 ? 10 α 1 ? α 2 = 0 ? x 2 = 0.5 (10 α 1 + α 2 ? 4)

$\dfrac{\partial L}{\partial x_1}=2x_1-2-\alpha_1+10\alpha_2=0\Rightarrow x_1=0.5(\alpha_1-10\alpha_2+2) \\ \dfrac{\partial L}{\partial x_2}=2x_2+4-10\alpha_1-\alpha_2=0\Rightarrow x_2=0.5(10\alpha_1+\alpha_2-4)$
而我们还有一个条件就是

α?g(x)=0 $\alpha*g(x)=0$ ,那么也就是：

α 1 ? g 1 (x) = α 1 ? (10 ? x 1 ? 10 x 2) = 0 α 2 ? g 2 (x) = α 2 ? (10 x 1 ? x 2 ? 10) = 0

$\alpha_1*g_1(x)=\alpha_1*(10-x_1-10x_2)=0\\\alpha_2*g_2(x)=\alpha_2*(10x_1-x_2 - 10)=0$
这样我们就去讨论下，要么g=0，要么

α=0 $\alpha=0$ ，这里两个g两个

α $\alpha$ ，这样我们就需要讨论四种情况，可能你会说，这是约束条件少的情况，那么如果有10个约束条件，这样就有10个g和10个

α $\alpha$ ，你去给我讨论？多少种组合，不知道，但是换个思路，我们非得去10个一起去讨论？机智的学者想到一种方法，考虑到

∑αigi(x)=0 $\sum\alpha_ig_i(x)=0$ 这个条件，那么我两个两个讨论不就可以了，比如现在我就讨论

α7，α8 $\alpha_7，\alpha_8$ ，让其他的

α $\alpha$ 不变，为什么选或者至少选两个讨论呢，因为这个式子求和为0，改变一个显然是不行的，那就改变两个，你增我就减，这样和可以为0。再问为什么不讨论3个呢？也可以，这不是麻烦嘛，一个俗语怎么说来着，三个和尚没水喝，假设你改变了一个，另外两个你说谁去减或者加使得和为0，还是两个都变化一点呢？不好说吧，自然界都是成双成对的才和谐，没有成三成四的（有的话也少）。这里顺便提一下后面会介绍到的内容，就是实现SVM算法的SMO方法，在哪里，会有很多

α $\alpha$ ，那么人们怎么解决的呢，就是随便选择两个

α $\alpha$ 去变化，看看结果好的话，就接受，不好的话就舍弃在选择两个

α $\alpha$ ，如此反复，后面介绍。

说回来，这里有四种情况，正好两个 $\alpha$ ，也不用挑不用减的，一次完事。那么我们分着讨论吧，
（1） $\alpha_1=\alpha_2=0$ ，那么看上面的关系可以得到 $x_1 = 1,x_2=-1$ ,再把两个x带到不等式约束，发现第一个就是需要满足（10-1+20=29<0)显然不行，29>0的。舍弃

（2） $g_1(x)=g_2(x)=0$ ，带进去解得，x1=110/101;x2=90/101,再带回去求解 $\alpha_1，\alpha_2$ ，发现 $\alpha_1=58/101，\alpha_2=4/101$ ，它们满足大于0的条件，那么显然这组解是可以的。

（3）其他两种情况再去讨论发现是不行的。

可以看到像这种简单的讨论完以后就可以得到解了。
x1=110/101=1.08;x2=90/101=0.89,那么它得到结果对不对呢？这里因为函数简单，可以在matlab下画出来，同时约束条件也可以画出来，那么原问题以及它的约束面画出来就如下所示：
技术分享
这是截取下来的符合约束要求的目标面

可以看到最优解确实就是上面我们求的那个解。既然简单的问题可以这样解，那么复杂一点的只需要简单化，照样可以解，至此KKT条件解这类约束性问题就是这样，它对后续的SVM求解最优解至关重要。

解密SVM系列（一）：关于拉格朗日乘子法和KKT条件

标签：svm 算法支持向量机

原文地址：http://blog.csdn.net/on2way/article/details/47729419

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行