开始:
给定训练集:
T={(x1,y1),(x2,y2),(x3,y3),...,(xn,yn)}
,其中
xi∈x=Rn,
yi∈y={+1,?1},
i=1,2,...,N
定义:
函数间隔
超平面(w,b)关于样本点(xi,yi) 的函数间隔为:
γi^=yi(w?xi+b)
超平面(w,b)关于训练集T的函数间隔为:
γ^=mini=1,...,Nγ^i
增加约束,使||w|| = 1,这时函数间隔称为几何间隔。
几何间隔
超平面(w,b)关于样本点(xi,yi)的几何间隔:
γi^=yi(w||w||?xi+b||w||)
超平面(w,b)关于训练集T的几何间隔为:
γ^=mini=1,...,Nγ^i
1.线性可分
几何间隔最大化的分离超平面:
w??x+b?=0
相应的分类决策函数:
f(x)=sign(w??x+b)
?
转化为优化问题:
maxw,bγ几何
s.t.yi(w||w||?xi+b||w||)≥γ,i=1,2,...,N
由几何间隔和函数间隔的关系
?
maxw,bγ函数||w||
s.t. yi(w?xi+b)≥γ函数,i=1,2,...,N
可以取
γ^函数=1
?
s.t. yi(w?xi+b?1)≥0,i=1,2,...,N
就推出了 凸二次规划的形式。
插入知识点:1.凸优化
minwf(w)
s.t.gi(w)≤0,i=1,2,...,k
s.t.hi(w)=0,i=1,2,...,l
其中,目标函数f(w)和约束函数
gi(w)都是
Rn上连续可微的凸函数,约束函数
hi(w)是
Rn上的仿射函数。
2.拉格朗日对偶性
对于上面的凸优化问题,引入拉格朗日函数:
L(x,α,β)=f(x)+∑i=1kαigi(x)+∑j=1lβjhj(x)
其中
αi,βi是拉格朗日乘子,
αi≥0
设
θp(x)=maxα,β;αi≥0L(x,α,β)
则,若x违反原始问题约束,则可以取
α→+∞或者取
β→+∞,因此针对这些情况
θp(x)为正无穷。相反的,若x遵循原始问题的约束,那么无论
α,θ如何取值,由于乘以0,最后都是0,于是
θp(x)=f(x)。
于是有?
θp(x)={f(x),x满足原始问题约束+∞,其他
minxθp(x)=minxmaxα,β;αj≥0L(x,α,β)
与原问题等价。
原始问题和对偶问题:
maxminL(x,α,β)≤minmaxL(x,α,β)
特别的,对于凸优化问题,等式成立的充要条件是KKT条件。
继续:
根据刚才补充的知识,凸二次问题等价于拉格朗日对偶问题(满足KKT条件)。
L(w,α,β)=12||w||2?∑i=1Nαiyi(w?xi+b)+∑i=1Nαi
其中,
α=(α1,α2,...,αN)T是拉格朗日乘子向量。
原始问题:
maxminL(x,α,β)
对偶问题:
minmaxL(x,α,β)
(1)求minw,bL(w,b,α)
?L?w=w?∑i=1Nαiyixi=0
?w=∑i=1Nαiyixi
?L?b=∑i=1Nαiyi=0
?∑i=1Nαiyi=0
上面两个推论代入,得
L(w,b,α)=12∑i=1N∑j=1Nαiαjyiyj(xi?xj)+∑i=1Nαi