三种SVM的对偶问题

时间：2017-06-24 10:11:17 阅读：345 评论：0 收藏：0 [点我收藏+]

一、SVM原问题及要变成对偶问题的解决办法

对于SVM的，我们知道其终于目的是求取一分类超平面，然后将新的数据带入这一分类超平面的方程中，推断输出结果的符号，从而推断新的数据的正负。

而求解svm分类器模型。终于能够化成例如以下的最优化问题：

min w, b s . t . 1 2 ∥ w ∥ 2 1 ? y i (w ? x i + b) \leq 0 i = 1, 2, . . ., N

$\begin{aligned} \displaystyle{\min_{w,b}} \hspace{1cm}&{1\over 2}\parallel w \parallel ^2\s.t.\hspace{1cm}&1-y_i(w\cdot x_i +b)\leq 0\&i=1,2,...,N \end{aligned}$ 上式中。

yi $y_i$ 相应样本

xi $x_i$ 的标签。
我们的目的是求出上述最优化问题的最优解，

w? $w^*$ 和

b? $b^*$ ，从而得到分类超平面：

w ? ? x + b ? = 0

$w^*\cdot x +b^* = 0$ 进而得到分类决策函

f (x) = s i g n (w ? ? x + b)

$f(x) = sign(w^*\cdot x+b)$ 可是在求解这一最优化问题时。求解较为困难，且对于线性不可分的数据无法得到较好的分类超平面。因此依据拉格朗日对偶性，引进原最优化问题的对偶问题，通过求解对偶问题得到原始问题的最优解。

对偶问题的引进有两个方面。一是对偶问题的求解往往比原问题easy。二是对于线性不可分的数据能够通过加松弛变量、加核函数的方法，将其推广到非线性分类。

二、原始SVM的对偶问题及其求解

原始的SVM模型的原问题例如以下：

min w, b s . t . 1 2 ∥ w ∥ 2 1 ? y i (w ? x i + b) \leq 0 i = 1, 2, . . ., N

$\begin{aligned} {\min_{w,b}} \hspace{1cm}&{1\over 2}\parallel w \parallel ^2\s.t.\hspace{1cm}&1-y_i(w\cdot x_i +b)\leq 0\&i=1,2,...,N \end{aligned}$ 为方便计算，将范数形式改写成例如以下形式：

min w, b s . t . 1 2 w T w 1 ? y i (w ? x i + b) \leq 0 i = 1, 2, . . ., N

$\begin{aligned} \displaystyle{\min_{w,b}} \hspace{1cm}&{1\over 2}w^Tw\s.t.\hspace{1cm}&1-y_i(w\cdot x_i +b)\leq 0\&i=1,2,...,N \end{aligned}$ 要想求原始问题的对偶问题。首先构造拉格朗日函数入例如以下：

L (w, b, λ) = 1 2 w T w + \sum i = 1 N λ i [1 ? y i (w T x i + b)] λ i \geq 0, i = 1, 2, . . ., N

$L(w,b,\lambda) = \frac{1}{2}w^Tw + \sum_{i=1}^N \lambda_i[ 1-y_i(w^Tx_i+b)]\\ \lambda _i\geq0, \hspace{1cm}i=1,2,...,N$ 上式中的

λi $\lambda_i$ 是拉格朗日乘子。
观察上述式子。可发现

λ i [1 ? y i (w T x i + b)] \leq 0

$\lambda_i[1-y_i(w^Tx_i+b)]\leq0$
所以

L(w,b,λ)≤12wTw $L(w,b,\lambda) \leq \frac{1}{2}w^Tw$ ，即构造的拉格朗日函数是原问题的一个下界。

依据拉格朗日对偶性。原始问题的的对偶问题是极大化极小问题：

max λ min w, b L (w, b, λ)

$\max _{\lambda}\min_{w,b}L(w,b,\lambda)$ 上式所表达的意思是，先求

L(w,b,λ) $L(w,b,\lambda)$ 对

w,b $w,b$ 的极小，再求对

λ $\lambda$ 的极大。
首先。求

minw,bL(w,b,λ) $\min _{w,b}L(w,b,\lambda)$ ：
我们知道。对于一阶可导函数，其在导数值为0的地方。取到极大或极小值，对于我们构造的拉格朗日函数，其偏导导数为0的点，一定是极小值。故：

0 = ? ? w L (w, b, λ) = w + \sum i = 1 N λ i (? y i x i) ? w = \sum i = 1 N λ i y i x i 0 = ? ? b L (w, b, λ) = ? \sum i = 1 N λ i y i ? \sum i = 1 N λ i y i = 0

w $w$ 代入拉格朗日函数，可得

L (w, b, λ) = ? 1 2 \sum i = 1 N \sum j = 1 N λ i λ j y i y j x T i x j + \sum i = 1 N λ i ? \sum i = 1 N λ i y i ? ? \sum j = 1 N λ j y j x T j x i + b ? ?

$L(w,b,\lambda)=-\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\lambda_i\lambda_jy_iy_jx_i^Tx_j+\sum_{i=1}^N\lambda_i \-\sum_{i=1}^N\lambda_iy_i\left(\sum_{j=1}^N\lambda_jy_jx_j^Tx_i+b \right)$ 由于

∑Ni=1λiyi=0 $\sum_{i=1}^N\lambda_iy_i = 0$ ，故

L (w, b, λ) = ? 1 2 \sum i = 1 N \sum j = 1 N λ i λ j y i y j x T i x j + \sum i = 1 N λ i

$L(w,b,\lambda)=-\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\lambda_i\lambda_jy_iy_jx_i^Tx_j+\sum_{i=1}^N\lambda_i$ 所以

g (λ) = min w, b L (w, b, λ) = ? 1 2 \sum i = 1 N \sum j = 1 N λ i λ j y i y j x T i x j + \sum i = 1 N λ i

$g(\lambda)=\min_{w,b}L(w,b,\lambda)=-\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\lambda_i\lambda_jy_iy_jx_i^Tx_j+\sum_{i=1}^N\lambda_i$ 依据拉格朗日对偶的极大极小的性质，可知对偶问题的目标是：

max λ ? 1 2 \sum i = 1 N \sum j = 1 N λ i λ j y i y j x T i x j + \sum i = 1 N λ i

$\max_{\lambda} \hspace{1cm}-\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\lambda_i\lambda_jy_iy_jx_i^Tx_j+\sum_{i=1}^N\lambda_i\$ 如今再找约束条件，即在前面的推导过程中。遇到与 $\lambda$ 有关的等式或不等式，且该等式或不等式中不含原问的目标变量。
可发现，在对b求偏导是得到

∑Ni=1λiyi=0 $\sum_{i=1}^N\lambda_iy_i = 0$ ，故这是一个约束条件，另外在构造拉格朗日函数时。约定了

λi≥0 $\lambda_i\geq0$ ，故原问题的对偶问题能够写成例如以下形式：

max λ s . t . ? 1 2 \sum i = 1 N \sum j = 1 N λ i λ j y i y j x T i x j + \sum i = 1 N λ i \sum i = 1 N λ i y i = 0 λ i \geq 0, i = 1, 2, . . ., N

考虑对偶问题的最优化问题。存在 $\lambda^*$ 是对偶的最优解。又由于

w = \sum i = 1 N λ i y i x i

$w= \sum_{i=1}^N\lambda_iy_i x_i$
故能够解得

w ? = \sum i = 1 N λ ? i y i x i

$w^*= \sum_{i=1}^N\lambda_i^*y_i x_i$
同一时候依据KTT条件原理（这里不做解释，能够自行查阅资料，不论什么关于最优化理论、凸优化的书都会说到这个），可解得b的值：

b ? = y j ? \sum i = 1 N λ ? i y i x T i x j

$b^*=y_j-\sum_{i=1}^N\lambda_i^*y_ix_i^Tx_j$ 故分离超平面为：

\sum i = 1 N λ ? i y i x T i x + b = 0

$\sum_{i=1}^N\lambda_i^*y_ix_i^Tx+b=0$ 分类决策函数为：

f (x) = s i g n (\sum i = 1 N λ ? i y i x T i x + b)

$f(x)=sign\left(\sum_{i=1}^N\lambda_i^*y_ix_i^Tx+b \right)$

三、加松弛变量SVM的对偶问题

如上文所述。对于线性可分的数据，能够构造SVM模型。并将其转换为一个最优化问题，且这个优化问题的约束条件是对于全部的样本。都有 $1-y_i(w^Tx_i+b)\leq0$ 。则对于线性不可分的数据。在数学形式的解释为存在某个样本(x,y)使上述的约束不成立，即 $1-y(w^Tx+b)>0$ 。
既然约束条件不成立，那是否能增加一个松弛变量 $\xi，\xi\geq0$ ,使得 $1-y(w^Tx+b)-\xi\leq0$ ？
正是基于这个思想，出现了加松弛变量的SVM，其原始问题的形式例如以下：

min w, b s . t . 1 2 w T w + C \sum i = 1 N ξ i 1 ? y i (w ? x i + b) ? ξ i \leq 0 ? ξ i \leq 0 i = 1, 2, . . ., N

$\begin{aligned} \displaystyle{\min_{w,b}} \hspace{1cm}&{1\over 2}w^Tw+C\sum_{i=1}^N\xi_i\s.t.\hspace{1cm}&1-y_i(w\cdot x_i +b)-\xi_i\leq 0\&-\xi_i\leq0\&i=1,2,...,N \end{aligned}$ 当中C为常数，

ξi $\xi_i$ 为松弛变量。
由于我在约束中加了松弛变量，可是我们希望我们所加的松弛变量越小越好。这样越接近于原约束条件。故把“松弛变量越小越好”这一期望，放在目标函数中，由于目标函数是求最小值，故加上

C∑Ni=1ξi $C\sum_{i=1}^N\xi_i$ ，这一项也被称为“惩处项”。能够理解为增加的松弛变量越大。对目标函数的惩处力度越高。
现要求其对偶问题。相似于前面的解法，首先构造拉格朗日函数例如以下：

L (w, b, ξ, λ, β) = 1 2 w T w + C \sum i = 1 N ξ i + \sum i = 1 N λ i [1 ? y i (w T x i + b) ? ξ i] + \sum i = 1 N β i (? ξ i)

$L(w,b,\xi,\lambda,\beta)=\frac{1}{2}w^Tw+C\sum_{i=1}^N\xi_i+\sum_{i=1}^N \lambda_i[ 1-y_i(w^Tx_i+b)-\xi_i]\\+\sum_{i=1}^N\beta_i(-\xi_i)$ 相同。求偏导可得：

0 = ? ? w L (w, b, λ) = w + \sum i = 1 N λ i (? y i x i) ? w = \sum i = 1 N λ i y i x i 0 = ? ? b L (w, b, λ) = ? \sum i = 1 N λ i y i ? \sum i = 1 N λ i y i = 0 0 = ? ? ξ i = C ? λ i ? β i ? λ i = C ? β i \leq C

$\begin{aligned} &0=\frac{\partial}{\partial w}L(w,b,\lambda)=w+\sum_{i=1}^N\lambda_i(-y_i x_i)\Rightarrow w= \sum_{i=1}^N\lambda_iy_i x_i\&0=\frac{\partial}{\partial b}L(w,b,\lambda)=-\sum_{i=1}^N\lambda_iy_i\Rightarrow \sum_{i=1}^N\lambda_iy_i = 0\&0=\frac{\partial}{\partial \xi_i}=C-\lambda_i-\beta_i\Rightarrow\lambda_i=C-\beta_i\leq C \end{aligned}$ 将结果代回拉格朗日函数。可得例如以下形式：

L (w, b, λ) = ? 1 2 \sum i = 1 N \sum j = 1 N λ i λ j y i y j x T i x j + \sum i = 1 N λ i + C \sum i = 1 N ξ i ? \sum i = 1 N λ i ξ i ? \sum i = 1 N β i ξ i

$L(w,b,\lambda)=-\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\lambda_i\lambda_jy_iy_jx_i^Tx_j+\sum_{i=1}^N\lambda_i \+C\sum_{i=1}^N\xi_i-\sum_{i=1}^N\lambda_i\xi_i-\sum_{i=1}^N\beta_i\xi_i$ 由于

C?λi?βi=0 $C-\lambda_i-\beta_i=0$ 。所以

C \sum i = 1 N ξ i ? \sum i = 1 N λ i ξ i ? \sum i = 1 N β i ξ i = 0

$C\sum_{i=1}^N\xi_i-\sum_{i=1}^N\lambda_i\xi_i-\sum_{i=1}^N\beta_i\xi_i=0$ 故

g (λ, β) = min w, b L (w, b, λ) = ? 1 2 \sum i = 1 N \sum j = 1 N λ i λ j y i y j x T i x j + \sum i = 1 N λ i

$g(\lambda,\beta)=\min_{w,b}L(w,b,\lambda)=-\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\lambda_i\lambda_jy_iy_jx_i^Tx_j+\sum_{i=1}^N\lambda_i$ 则对偶形式为

max λ s . t . ? 1 2 \sum i = 1 N \sum j = 1 N λ i λ j y i y j x T i x j + \sum i = 1 N λ i \sum i = 1 N λ i y i = 0 0 \leq λ i \leq C, i = 1, 2, . . ., N

$\begin{aligned} \displaystyle \max_{\lambda} \hspace{1cm}&-\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\lambda_i\lambda_jy_iy_jx_i^Tx_j+\sum_{i=1}^N\lambda_i\s.t. \hspace{1cm}&\sum_{i=1}^N\lambda_iy_i = 0\&0\leq\lambda_i\leq C,\hspace{0.5cm}i=1,2,...,N \end{aligned}$ 观察上式可发现，对于原问题。加了松弛变量后，其对偶形式变化比較小，仅仅是在约束条件上有些许变化。从这点也可发现将原问题化成对偶问题的优点，即原问题形式的变化非常大，可是对偶问题变化却非常小，方便求解。

所以非常多优化问题。假设在原问题上较为难实现，则能够考虑转化为对偶问题。

四、加核函数SVM的对偶问题

加核函数的思想是：
通过一个非线性变化将输入空间映射到一个更高维的特征空间（希尔伯特空间），使得在输入空间中的超曲面模型相应希尔伯特空间中的超平面模型。

因此，在输入空间的非线性分类问题能够变成希尔伯特空间中的线性分类问题，故能够继续使用SVM模型。

核函数的定义：
设 $\mathbb X$ 是输入空间（欧式空间 $R^n$ 的子集或离散集合），又设 $\mathbb H$ 为特征空间（希尔伯特空间）。假设存在一个从 $\mathbb X$ 到 $\mathbb H$ 的映射：

? (x) : X \to H

$\phi(x):\mathbb X\rightarrow \mathbb H$ 使得对全部的

x,y∈X $x,y\in\mathbb X$ ，函数

K(x,y) $K(x,y)$ 满足条件

K (x, y) = < ? (x), ? (y) >

$K(x,y)=<\phi(x),\phi(y)>$

其中<?(x),?(y)> $当中<\phi(x),\phi(y)>$ 表示内积。
核技巧的想法是：
在学习预測中，仅仅定义核函数

K(x,y) $K(x,y)$ 。而不是显式的定义映射函数

? $\phi$ 。

通常，直接计算 $K(x,y)$ 比較easy，而通过 $\phi(x)$ 和 $\phi(y)$ 计算 $K(x,y)$ 并不easy。比較经常使用的核函数——高斯核函数：

K (x, y) = e x p (? ∥ x ? y ∥ 2 2 σ 2)

$K(x,y)=exp\left( -\frac{\|x-y\|^2}{2\sigma^2}\right)$ 基于核函数的思想，先定义原SVM模型例如以下：

min w, b s . t . 1 2 w T w + C \sum i = 1 N ξ i 1 ? y i (w ? ? (x i) + b) ? ξ i \leq 0 ? ξ i \leq 0 i = 1, 2, . . ., N

$\begin{aligned} \displaystyle{\min_{w,b}} \hspace{1cm}&{1\over 2}w^Tw+C\sum_{i=1}^N\xi_i\s.t.\hspace{1cm}&1-y_i(w\cdot \phi(x_i) +b)-\xi_i\leq 0\&-\xi_i\leq0\&i=1,2,...,N \end{aligned}$ 当中

?(xi) $\phi(x_i)$ 是映射将原输入样本映射到希尔伯特空间的特征。
转化为对偶形式例如以下：；

max λ s . t . ? 1 2 \sum i = 1 N \sum j = 1 N λ i λ j y i y j ? T (x i) ? (x j) + \sum i = 1 N λ i \sum i = 1 N λ i y i = 0 0 \leq λ i \leq C, i = 1, 2, . . ., N

$\begin{aligned} \displaystyle \max_{\lambda} \hspace{1cm}&-\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\lambda_i\lambda_jy_iy_j\phi^T(x_i)\phi(x_j)+\sum_{i=1}^N\lambda_i\s.t. \hspace{1cm}&\sum_{i=1}^N\lambda_iy_i = 0\&0\leq\lambda_i\leq C,\hspace{0.5cm}i=1,2,...,N \end{aligned}$ 终于化为带核函数形式：

max λ s . t . ? 1 2 \sum i = 1 N \sum j = 1 N λ i λ j y i y j K (x i, x j) + \sum i = 1 N λ i \sum i = 1 N λ i y i = 0 0 \leq λ i \leq C, i = 1, 2, . . ., N

$\begin{aligned} \displaystyle \max_{\lambda} \hspace{1cm}&-\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\lambda_i\lambda_jy_iy_jK(x_i,x_j)+\sum_{i=1}^N\lambda_i\s.t. \hspace{1cm}&\sum_{i=1}^N\lambda_iy_i = 0\&0\leq\lambda_i\leq C,\hspace{0.5cm}i=1,2,...,N \end{aligned}$ 通过观察发现，由原始的输入的内积

xTix $x_i^Tx$ ，转换到映射空间的内积

?T(xi)?(xj) $\phi^T(x_i)\phi(x_j)$ ，再转换为核函数形式，整个学习的过程是隐式的在特征空间（希尔伯特空间）进行的吗，而我们得到的显式的结果是用核函数显式的表达，这样的技巧称为核技巧。

其实。仅仅要是学习算法中涉及输入项的内积的函数，都能够用核函数的方法取代内积操作。

三种SVM的对偶问题

标签：子集推导技巧 ade app 0.00 main 核函数 sum

原文地址：http://www.cnblogs.com/blfbuaa/p/7072420.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行