机器学习实战——SVM（2/3）

时间：2015-05-16 00:14:46 阅读：328 评论：0 收藏：0 [点我收藏+]

上一篇总结了对于训练数据集线性可分的理想情况下，使用硬间隔最大化训练得到分类超平面的SVM方法，这种方法在实际应用中并不实用，因为实际的训练数据总是会存在人为或不可控的因素干扰产生各种噪声，因此是无法在特征空间下找到线性可分的超平面的，但是噪声总是有限的，可以对硬间隔这个限制进行放松，引入一个松弛变量来控制分类超平面的训练，从而可以对近似可以线性可分的实际应用数据进行学习和预测。从这里也可以很明显的看出虽然前文所述的硬间隔最大化SVM太过理想，实际应用不理想，但是正是这种理想化的抽象，才能引出本文的近似线性可分的SVM模型，这里也彰显了数学模型的抽象的作用，以及在研究实际的复杂问题时善于进行抽象总结最后再向实际推广的思路，非常值得我们进行学习和借鉴。

软间隔最大化的SVM

训练数据集 $T$ 中存在噪声导致无法找到线性可分的超平面，但是这些噪声只是少量的，如果不考虑他们的干扰，那么剩下的绝大部分数据是线性可分的。如下图所示
技术分享
图中的红色分类平面两侧分别有2个圆点类别和1个方框类别的点，这几个特殊的噪声使得整个数据集已经无法使用线性可分的超平面模型了，但是从数据集的分布上可以看出绝大多数是位于红色分界线两侧的，因此需要引入一个量来表征这种实际情形，那就是松弛变量。

松弛变量

在前文的线性可分的条件下，对每个样本点 $(x_i,y_i)$ 到分类超平面 $w\cdot x+b=0$ 的距离约束添加一个松弛变量 $\xi_i$ ，得到如下的约束条件：

y i (w ? x i + b) \geq 1 ? ξ i ξ i \geq 0, i = 1, 2, . . . N

$y_i(w\cdot x_i + b) \ge 1 - \xi_i\\xi_i \ge 0,i=1,2,...N$
对于可以被超平面分开的绝大多数样本点上述的松弛变量等于0，也就是不需要松弛和“让步”；但是对于个别无法线性分开的样本点，通过使用松弛变量

ξi $\xi_i$ 来做出“让步”，从而将这些数据点也能通过线性的超平面来分隔，这就是用数学模型上的修正来模拟现实情况下的噪声，使得模型具有更好的鲁棒性。

修正的模型

根据前一篇博文的分析，训练软间隔SVM模型的优化目标函数任然是间隔最大化，因此依然是 $\frac{1}{2}||w||_2^2$ ；但是由于引入了松弛变量，对于样本点的松弛变量不为0时，表示该样本点没有被超平面分隔开来，那么这个样本点的松弛变量实际上就代表了误分了这个样本点的程度，因此我们的目标函数需要同时最小化误分类样本个数才对，因此修正后的软间隔最大化的SVM模型如下：

m i n w, b, ξ 1 2 | | w | | 22 + C \sum i = 1 N ξ i s . t . y i (w ? x i + b) \geq 1 ? ξ i, i = 1, 2... N ξ i \geq 0, i = 1, 2... N

$min_{w,b,\xi}\frac{1}{2}||w||_2^2+C\sum_{i=1}^N\xi_i \s.t. y_i(w\cdot x_i+b)\ge1-\xi_i,i=1,2...N\\xi_i\ge0,i=1,2...N$
其中的

C∑Ni=1ξi $C\sum_{i=1}^N\xi_i$ 就是误分类的样本点的一个表征，目标是要最小化误分类样本点数目，同时要间隔最大化。常数

C>0 $C\gt0$ 是对误分类样本点的惩罚参数，对于给定的应用，如果误分类的后果很严重（例如将病毒软件误分类为正常软件），那么就要增大这个系数来增大惩罚；反之，误分类并不太重要，那么这个系数就可以相应减小，使得惩罚减小。
上述线性不可分的SVM和上一篇博文介绍的线性可分SVM统称为线性支持向量机，因为他们最终学习到最优参数

w? $w^*$ 和

b? $b^*$ 之后，都可以得到分类的决策函数

f(x)=sign(w??x+b?) $f(x)=sign(w^*\cdot x + b^*)$ 。

模型训练

上述优化问题与线性可分SVM的求解方法相同，使用Language函数的极大极小问题。原始问题的Language函数是

L (w, b, ξ, λ, μ) = 1 2 | | w | | 22 + C \sum i = 1 N ξ i ? \sum i = 1 N λ i (y i (w x i + b) ? 1 + ξ i) ? \sum i = 1 N μ i ξ i λ i \geq 0, μ i \geq 0, i = 1, 2, . . . N

$L(w,b,\xi,\lambda,\mu)=\frac{1}{2}||w||_2^2+C\sum_{i=1}^N\xi_i-\sum_{i=1}^N\lambda_i(y_i(wx_i+b)-1+\xi_i)-\sum_{i=1}^N\mu_i\xi_i\\lambda_i\ge0,\mu_i\ge0,i=1,2,...N$
使用同样的方式，可以首先求得对

w、b、ξ $w、b、\xi$ 的极小

? w L = 0, ? b L = 0, ? ξ L = 0

$\nabla_wL=0,\nabla_bL=0,\nabla_\xi L=0$
得到如下的条件：

w = \sum i = 1 N λ i y i x i \sum i = 1 N λ i y i = 0 C ? λ i ? μ i = 0

$w=\sum_{i=1}^N\lambda_iy_ix_i\\sum_{i=1}^N\lambda_iy_i=0\C-\lambda_i-\mu_i=0$
将上述条件带入原始Language函数，对最优化问题进行变换，利用等式

C?λi?μi=0 $C-\lambda_i-\mu_i=0$ 消去

μi $\mu_i$ ，从而只留下

λi $\lambda_i$

m a x λ L = 1 2 \sum i = 1 N \sum j = 1 N λ i λ j y i y j (x i ? x j) ? \sum i = 1 N λ i y i (\sum j = 1 N) λ j y j x j) x i ? \sum i = 1 N λ i y i b + \sum i = 1 N λ i + \sum i = 1 N (C ? λ i ? μ i) ξ i = m a x λ ? 1 2 \sum i = 1 N \sum j = 1 N λ i λ j y i y j (x i ? x j) + \sum i = 1 N λ i s . t . \sum i = 1 N λ i y i = 0 C ? λ i ? μ i = 0 λ i \geq 0 μ i \geq 0 i = 1, 2... N

$max_{\lambda}L=\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\lambda_i\lambda_jy_iy_j(x_i\cdot x_j)-\sum_{i=1}^N\lambda_iy_i(\sum_{j=1}^N)\lambda_jy_jx_j)x_i-\sum_{i=1}^N\lambda_iy_ib+\sum_{i=1}^N\lambda_i+\sum_{i=1}^N(C-\lambda_i-\mu_i)\xi_i\=max_\lambda -\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\lambda_i\lambda_jy_iy_j(x_i\cdot x_j)+\sum_{i=1}^N\lambda_i\s.t. \sum_{i=1}^N\lambda_iy_i=0\C-\lambda_i-\mu_i=0\\lambda_i\ge0\\mu_i\ge0\i=1,2...N$
约束条件里面也可以消去

μi $\mu_i$ ，从而可以得到最终的目标函数和约束条件如下：

m a x λ ? 1 2 \sum i = 1 N \sum j = 1 N λ i λ j y i y j (x i ? x j) + \sum i = 1 N λ i s . t . \sum i = 1 N λ i y i = 0 0 \leq λ i \leq C

$max_\lambda-\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\lambda_i\lambda_jy_iy_j(x_i\cdot x_j)+\sum_{i=1}^N\lambda_i\s.t.\sum_{i=1}^N\lambda_iy_i=0\0\le\lambda_i\le C$
通过对上述约束优化问题求最大值即可得到最优的

λ? $\lambda^*$ ，从而可以得到最优的

w?、b? $w^*、b^*$

w ? = \sum i = 1 N λ ? y i x i b ? = y j ? \sum i = 1 N λ ? y i x i ? x j

$w^*=\sum_{i=1}^N\lambda^*y_ix_i\b^*=y_j-\sum_{i=1}^N\lambda^*y_ix_i\cdot x_j$
这样可以看出，所有的问题最终都归结了对偶问题的最优化，与上一篇博文中的线性可分SVM的求解是一样的。

模型的另一种解释

按照统计学习的三要素，软间隔最大化的SVM模型是判别式模型，学习到的是一个决策函数，对未知样本进行预测。学习的策略是结构风险最小化，其中使用的损失函数是如下的称为合页损失函数

f (x) = [x] + = {0, x, if x \leq 0 if x > 0

$f(x)=[x]_{+}=\begin{cases} 0, &\text{ if $x\le0$} \x, &\text{ if $x\gt0$} \end{cases}$
结构风险最小化如下形式的函数：

m i n w, b \sum i = 1 N [1 ? y i (w ? x i + b)] + + λ | | w | | 22

$min_{w,b}\sum_{i=1}^N[1-y_i(w\cdot x_i +b)]_++\lambda||w||_2^2$
前一项就是使用合页损失函数时的经验风险函数，后一项就是正则化项，其中的

λ $\lambda$ 为正则化项的系数。使用合页损失函数说明在样本被正确分类且函数间隔

yi(wxi+b) $y_i(wx_i+b)$ 大于1时，损失为0；否则损失为

1?yi(wxi+b) $1-y_i(wx_i+b)$ 。这是对二类分类问题真正的0-1损失函数的一种近似，这种合页损失是0-1损失的上界。
可以对上述结构风险最小化进行变换，使用

1 ? y i (w x i + b) = ξ i, ξ i \geq 0

$1-y_i(wx_i+b)=\xi_i,\xi_i\ge0$
也就是将合页损失不为0的部分选出来用

ξi $\xi_i$ 表示，那么代换得到

m i n w, b \sum i = 1 N ξ i + λ | | w | | 22 ξ i \geq 0 ， i = 1, 2... N

$min_{w,b}\sum_{i=1}^N\xi_i+\lambda||w||_2^2\\xi_i\ge0，i=1,2...N$
其中的

λ $\lambda$ 是常数，因此如果取

λ=12C $\lambda=\frac{1}{2C}$ ，则有

m i n w, b \sum i = 1 N ξ i + 1 2 C | | w | | 22 = m i n w, b 1 C (1 2 | | w | | 22 + C \sum i = 1 N ξ i)

$min_{w,b}\sum_{i=1}^N\xi_i+\frac{1}{2C}||w||_2^2\=min_{w,b}\frac{1}{C}(\frac{1}{2}||w||_2^2+C\sum_{i=1}^N\xi_i)$
常数系数对最终最优解没有影响，因此上述结构风险最小化与软间隔最大化是等价的。

机器学习实战——SVM（2/3）

标签：svm 机器学习

原文地址：http://blog.csdn.net/u010487568/article/details/45702237

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行