标签:
Hypothesis set可以表示如下。
可以看出H2=H3 when w3=0。或者H2=H10 when w3…w10=0。
因此可以得出结论
上篇文章说到,H2中找到的h*的Eout会比H10中找到的h*的Eout要小,因为H10中的h*产生了overfitting。
假如说现在要在H10中找h*,那么就是要
(1)
如果要在H2中找h*,也可以做(1)式的动作,只不过要加上约束条件w3=w4=…w10=0。
即H2可以 表示为
现在我们把约束条件放松一点,不要让特定的w3…w10=0,只需要有8个w=0即可。定义为
因此,对求h*的过程要保证w=0的个数小于等于3.
但是求解这样一个h是NP-hard的问题。于是,我们把约束的目标变成,之所以可以这样替代的原因是,如果当大部分的w都为0时,它们的平方和也应该小于某个数,这里引入了C。于是原来的变为
可以看出,和的空间有overlap,但是并不是完全一样的,比如中确实满足,但是可能是每个w都很小但不等于0,这部分的h并不是重叠部分。如果C无穷大时,说明木有约束条件,也就是H10了。
现在在H(C)中求h*,需要minEin(w),对于linear regression的问题
对于约束条件的物理意义就是w要在半径为的球内部,如下图红色部分。
对于min的部分,w减小的方向就是梯度的方向,现在有个w已经在球的边缘,因为有约束条件的限制,意思是w只能最多在球面上滚动,不能滚出球的范围。然后求出的梯度是蓝色的部分,如果梯度的方向垂直于球的切面,即normal那个方向,这样就违反了约束条件,其实normal向量的方向就和w的方向一致。如果求出的梯度的方向如图所示,可知梯度在垂直于normal向量的绿色方向有一个分量,可知w可以往绿色的方向滚,这样就更加接近了位于山谷的wlin了。
当求出的梯度和normal,也就是w的方向一直的话,则说明再滚下去就会滚出球的范围,违反了约束条件。把此时的w称为,有,即这两个方向平行。
既然平行,我们可以加入拉格朗日乘子,把这两项写在一个式子里,如式(2)
(2)
其中
所以(2)式变为
当已知时,解关于的一次方程,有
叫做ridge regression (L2-norm)
如果没有那一项,就是之前没有正规化的w的求法
其实求式(2),等价于求式(3),就是把式(2)积分回去的结果。
定义
这样,原来求解一个带有C的约束条件的方程,变成求解一个没有约束条件,但是带有一项regularizer的方程,即
这种方法叫做weight-decay regularization.
其实就是给定一个C,就可以求出对应的。
有个问题需要讨论,如果当x的取值范围在-1到1之间,那么经过polynomial的转换以后,高次的就会变很小,前面的系数则需要很大,但是这和regularization所希望的是相矛盾的。
因此如果要做多项式的regularization,用右图的变换比左图的,得到的效果更好。
从VC bound的角度来说,如果算法没有经过regularized,,这是个很大的数字。但是如果regularized的话,,这个值其实很小(A是用于min 的算法)
以上是在讨论L2 regularizer,接下来稍微介绍一下L1 regularizer:
L1的解出来的w是sparse的,有很多的w是0,因为往往求得的会跑到顶点去,这边的w就会有很多是0.
标签:
原文地址:http://www.cnblogs.com/casey1234/p/4603203.html