码迷,mamicode.com
首页 > 其他好文 > 详细

正则化项L1和L2

时间:2018-10-02 20:33:11      阅读:266      评论:0      收藏:0      [点我收藏+]

标签:高斯分布   坐标   过拟合   com   大小   贝叶斯   绝对值   约束   www   

L1和L2正则化项,又叫做惩罚项,是为了限制模型的参数,防止模型过你和而加在损失函数后面的一项。

 

  • L1是模型的各个参数的绝对值之和
  • L2是模型各个参数的平方和的开方值

区别:

  1. L1会趋向于产生少量的特征,而其他的特征都是0。
    • 从图形上理解:应为最优的参数值很大概率出现在坐标轴上,这样就导致某一维的权重为0,产生稀疏权重矩阵。
    • 从贝叶斯的角度理解:加上正则化项L1,等同于对θ假设一个先验分布为拉普拉斯分布
  2. L2会选择更对的特征,这些特征都会接近于0。最优参数值很小概率出现在坐标轴上,因为每一维的参数都不会是0。当最小化||W||时,就会使每一项趋近于0,而不是稀疏。
    • 从图上上理解:L2约束条件在解空间中没有角,因而更倾向于约束其值的大小,而不是使其为0
    • 从贝叶斯的角度理解:L2相当于给θ一个先验分布为高斯分布。

 

作用:L1正则化可以产生稀疏模型,L2正则化项可以防止过拟合(因为拟合的过程中通常都倾向于让权值尽可能小,最后构造一个所有参数都比较小的模型。因为一般认为参数值小的模型比较简单,能适应不同的数据集,也在一定程度上避免了过拟合数据(抗扰动能力))。

 

 

参考:

李航《统计学习方法》

http://www.cnblogs.com/lyr2015/p/8718104.html

https://blog.csdn.net/YoYoDelphine/article/details/52888315

https://blog.csdn.net/jinping_shi/article/details/52433975

正则化项L1和L2

标签:高斯分布   坐标   过拟合   com   大小   贝叶斯   绝对值   约束   www   

原文地址:https://www.cnblogs.com/R-dog/p/9737465.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!