标签:
从上一课可知,对于给定的线性可分的数据集,离分隔超平面最近的点是支持向量。而支持向量与分隔超平面间的距离越远,则说明最后算法的预测结果越可信。这课的核心就在于如何确定最佳的分隔超平面,即最优间隔分类器。
首先我们要介绍其中的数学推理,然后介绍最优间隔分类器。
1、凸优化问题
选取一个函数里的两个点,连接两个点成一条直线,两点间的函数点都在这条直线下即为凸函数,凸函数的例子有指数函数。当一个问题被转化为凸优化问题,说明这个问题可以很好被解决。对于凸优化问题来说,局部最优解就是全局最优解。
给定一个线性可分的数据集,我们将最优化间隔问题表示为:
||w||=1代表几何间隔等于函数间隔。这也意味着几何间隔的不小于。然后解决此问题,即可得到最优间隔。但是这是个非凸优化问题,没法用标准的优化软件来解决。
根据几何间隔和函数间隔的关系可以将问题优化表达为:
然后添加一个w和b的缩放条件。所以最大化就相当于最小化。所以问题最终可以优化表达为凸优化问题。
解决这个问题即可得到最优间隔分类器。
2、拉格朗日对偶性
2.1拉格朗日算子
解决条件限制的优化问题可以用拉格朗日对偶性。假设一个问题如下表示:
所以其拉格朗日算子表示为:
分别求导归零可得:
由此即可求解出和。
此外我们还可以添加不等式限制条件,这种最优化问题的求解可如下。原问题可表达为:
则它的拉格朗日算子为
假设,代表原问题,已知。
如果不满足条件即(或者),则可以推出
如果满足条件,则。
所以归纳可得:
所以最小化原问题就是在最小化。因此可以得到原问题的解。
2.2对偶性和KKT条件
对偶问题的定义可以如下解释。假设原问题的对偶问题为
对偶优化问题表示为:
这就是和我们的原问题类似的只是max和min对调了。我们定义对偶优化问题的解为。
因为max min总是不大于min max,所以当min max = max min时,即可知道min max得到了最优解。而什么时候可以让原问题(min max)的解和其对偶问题(max min)的解相等呢?
只需要满足KKT条件就可以了。
假定f和所有的g、h都是仿射函数,并且存在一些使得,则KKT(Karush-Kuhn-Tucker)条件可按如下表示:
其中是原问题的参数解,是对偶问题的参数解。从(5)式中可以看出如果不等于0,则等于0。
3、最优间隔分类器
最优间隔分类器可定义为
因此设置其限制条件为
因此其拉格朗日算子为
对其因子求导得到:
求得
对其因子b求导可得:
将(9)式代入(8)式可得
再经由(10)式代入得
所以对偶优化问题可以表示为:
由对偶优化问题可以求出,从而可以通过(9)求出,b的解为
对于一个新的数据点x,可以通过如下进行预测
这样就实现了最优间隔分类器。
版权声明:本文为博主原创文章,未经博主允许不得转载。
斯坦福《机器学习》Lesson7感想———1、最优间隔分类器
标签:
原文地址:http://blog.csdn.net/adeleamily/article/details/47045029