首页 > 其他好文 > 详细

支持向量机（三）

时间：2017-06-07 14:23:06 阅读：194 评论：0 收藏：0 [点我收藏+]

标签：分支需要下标平均值 ges 分类均值 adr image

根据上一篇文章中的目标函数和约束条件(22)和(23)式，这是一个二次规划（quadratic programming，QP ）问题，先分析如何求解。

这里为了方便，再写一次目标函数和约束条件，

技术分享 (0)

技术分享 (1)

并且把模型输出函数也写一遍（从上一篇中(3)式而来），

技术分享 (2)

然而实际上的训练数据集不一定是严格的线性可分，若非如此，那就不存在理想的分离超平面。也就是，某些样本点不能满足上篇文章中的(15)式条件。为了方便起见，这里再次给出原始的目标函数和约束条件：

技术分享 (5)

技术分享 (6)

为了解决这个问题，对每个样本点引入松弛变量(slack variable) ξ_i >=0，放宽约束条件（即允许一定数量的误分类点或者是带内分类点，显然ξ_i 越大，可以允许的数据点离间隔边界越远，当距离达到1/||w||时，到达分离超平面），约束条件变为，

技术分享 (7)

同时目标函数变为，

技术分享 (8)

如此，线性严格可分就是ξ_i =0的情况，C是平衡间隔和分类错误点的参数，也叫惩罚因子，C越大时对误分类的惩罚越大。

对目标函数(8)来说，最小化(8)的目的一方面是为了让原来的目标函数(5)尽量小，也就是函数间隔尽量大，另一方面使误分类数量尽量减少。

如此，便可类似前面处理数据集严格线性可分来处理近似线性可分的数据集，由于实际中总是不可能严格线性可分，所以更需要处理近似线性可分的情况，我们把这种情况称为软间隔最大化，称这样的模型为线性支持向量机。当然，线性可分支持向量机是一种特殊的线性支持向量机。

对偶算法

现在总结一下问题

技术分享 (9)

技术分享 (10)

技术分享 (11)

惩罚因子C不作为约束条件，我们可以在实际问题中根据经验指定为一个固定值。

拉格朗日函数为，

技术分享 (12)

技术分享

对偶问题是拉格朗日函数的极大极小问题

1）求L对w,b,ξ的极小，

技术分享

技术分享

技术分享

解得，

技术分享 (13)

技术分享 (14)

技术分享 (15)

代入(12)式，得，

技术分享 (16)

2）对(16)式求对α的极大，得

技术分享

由于拉格朗日乘子ui>=0，所以有

技术分享

于是整理上述函数和约束条件为，

技术分享 (17)

技术分享 (18)

假设求的上述最优问题的一个解为α*，与上一篇文章中类似的推导，有

技术分享 (19)

技术分享 (20)

其中b的求解，选择α*某个不为0的分量，假设分量下标为j，对应的样本点为(x_j,y_j)。

分类决策函数则为，

技术分享 (21)

下面证明(17)和(18)下的最优解w是唯一的。令，N+1+J维向量

z=(w^T,b,ξ^T)^T=(w^T, b, ξ₁, ... , ξ_N)^T，则目标函数为

技术分享 (22)

由于这是个凸规划问题，故其解集是凸集，且任意解都是全局解，假设z‘, z‘‘是最优解，那么z_t=(1-t)z‘ + tz‘‘ (t∈[0,1])也是最优解，故

F(z‘)=F(z‘‘)=F(z_t) (23)

由于

z_t=(1-t)z‘ + tz‘‘=(1-t)(w‘^T,b‘,ξ‘^T)^T + t(w‘‘^T, b‘‘, ξ‘‘^T)^T

= (((1-t)w‘ + tw‘‘)^T, (1-t)b‘ + tb‘‘, ((1-t)ξ‘ + tξ‘‘)^T)^T =(w_t^T,b_t,ξ_t^T)^T(24)

联合(23)和(24)式，有

技术分享

变换一下得，

技术分享 (25)

(25)为t的函数，对t求一阶导和二阶导，得

技术分享

技术分享

显然，w‘‘ 和 w‘ 相等，所以w是唯一的。

另外，b的解不是唯一的，而是一个区间，具体证明暂且先略过，实际求解b的值时，可以取所有符合条件的样本点，即，对α*所有不为0的分量，对应的样本点均符合条件，代入(20)式计算再求平均值。

支持向量

求得的α的分量不为0时，相应的样本点(x_i, y_i)刚好使约束条件(10)取等号，这些样本点就称为支持向量。

当然，由于α的解不是唯一的，如果对于任意α的解，都有α_i>0，则对应的输入x_i为基本支持向量（注意，支持向量不一定是基本支持向量）。

假设对于问题(9)(10)和(11)，其解为(w*,b*)，则满足

(w* x + b*) >=1 (26)

的区域为带有间隔的正确划分区，间隔边界为上式等号成立的情况。

分离超平面为

(w* x + b*) = 0 (27)

不难知道，支持向量xi距离其对应的间隔边界的距离为ξ_i/||w||，距离超平面的距离为(1-ξ_i)/||w||，当ξ_i>1时，距离为负，表示分类错误。如下图，

技术分享

其中 “。”表示正例，“x”表示负例。

如何求解α的最优解目前还没有介绍，可以先不着急，下篇继续介绍更一般的情况：非线性支持向量机。

ref

统计学习方法，李航
数据挖掘中的新方法—支持向量机，邓乃扬，田英杰

支持向量机（三）

标签：分支需要下标平均值 ges 分类均值 adr image

原文地址：http://www.cnblogs.com/sjjsxl/p/6956411.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

更多

友情链接

兰亭集智国之画百度统计站长统计阿里云 chrome插件新版天听网

关于我们 - 联系我们 - 留言反馈

© 2014 mamicode.com 版权所有联系我们:gaon5@hotmail.com

迷上了代码！