Stanford机器学习笔记-8. 支持向量机(SVMs)概述

时间：2016-04-21 01:13:23 阅读：217 评论：0 收藏：0 [点我收藏+]

标签：

8. Support Vector Machines(SVMs)

Content

　　　　8. Support Vector Machines(SVMs)

　　　　　　8.1 Optimization Objection

　　　　　　8.2 Large margin intuition

　　　　　　8.3 Mathematics Behind Large Margin Classification

　　　　　　8.4 Kernels

　　　　　　8.5 Using a SVM

　　　　　　　　8.5.1 Multi-class Classification

　　　　　　　　8.5.2 Logistic Regression vs. SVMs

8.1 Optimization Objection

支持向量机(Support Vector Machine: SVM)是一种非常有用的监督式机器学习算法。首先回顾一下Logistic回归，根据log()函数以及Sigmoid函数的性质，有：

技术分享

同时，Logistic回归的代价函数（未正则化）如下：

技术分享

为得到SVM的代价函数，我们作如下修改：

技术分享

因此，对比Logistic的优化目标

技术分享

SVM的优化目标如下：

技术分享

注1：事实上，上述公式中的Cost0与Cost1函数是一种称为hinge损失的替代损失(surrogate loss)函数，其他常见的替代损失函数有指数损失和对率损失，具体参见《机器学习》P129 周志华）

注2：注意参数C和λ的对应关系: C与(1 / λ)成正相关。

8.2 Large margin intuition

根据8.1中的代价函数，为使代价函数最小，有如下结论：

技术分享

现假设C很大（如C=100000），为使代价函数最小，我们希望

技术分享

所以代价函数就变为：

技术分享

所以问题就变成：

技术分享

该问题最后的优化结果是找到具有"最大间隔"(maximum margin)的划分超平面，所以支持向量机又称大间距分类器(large margin classifier)。那么什么是间隔? 为什么这样优化就可以找到最大间隔？首先，我们通过图8-1所示的二维的0/1线性分类情况来直观感受。

技术分享

图8-1 SVM Decision Boundary: Linearly separable case

直观上，应该去找位于两类训练样本"正中间"的划分超平面，即图8-1的黑色直线(二维)，因为该划分超平面对训练样本局部扰动的"容忍"性最好。例如，图中的粉色和绿色直线，一旦输入数据稍有变化，将会得到错误的预测。换言之，这个划分超平面所产生的分类结果是最鲁棒的，对要预测数据集的泛化能力最强。而两条蓝色直线之间的距离就称为间隔(margin)。下一节将从数学角度来解释间隔与最大间隔的优化原理。

8.3 Mathematics Behind Large Margin Classification

首先介绍一些数学知识。

2-范数(2-norm)：也可称长度(length)，是二维或三维空间向量长度的推广，向量u记为||u||。例如，对于向量u = [ u1, u2, u3, u4]，||u|| = sqrt(u1^2 + u2^2 + u3^2 + u4^2)
向量内积(Vector Inner Product): 设向量a = [a1, a2, … , an]，向量b = [b1, b2, … , bn]，a和b的的内积定义为：a · b = a1b1 + a2b2 + … + anbn 。向量内积是几何向量数量积(点积)的推广，可以理解为向量a在向量b上的投影长度(范数)和向量b的长度的乘积。

所以有：

技术分享

其中技术分享是在向量上的投影长度。

所以，8.2节得到的优化问题可以转为如下形式:

技术分享

分界线为技术分享，所以可知和分界线正交(垂直)，并且当时，分界线过原点(欧式空间)。为使目标最优（取最小值）且满足约束，应该尽可能大，这样就要求间距尽可能的大。直观的如图8-2所示，图左为间距较小的情况，此时的较小，为满足约束，导致目标函数变大，图右为最大间距的情况，此时的技术分享是最大的，所以目标可以尽可能的小。

技术分享

图8-2 两种不同间距的情况

8.4 Kernels

上述的讨论都是基于线性可分的样本，即存在一个划分超平面可以将训练样本正确分类，然而现实世界存在大量复杂的，非线性分类问题(如4.4.2节的异或/同或问题)。Logistic回归处理非线性问题可以通过引入多项式特征量作为新的特征量；神经网络通过引入隐藏层，逐层进化解决非线性分类问题；而SVM是通过引入核函数(kernel function)来解决非线性问题。具体做法如下：