码迷,mamicode.com
首页 > 其他好文 > 详细

标签平滑(label smoothing)的通俗理解

时间:2020-03-18 22:11:45      阅读:102      评论:0      收藏:0      [点我收藏+]

标签:tput   几何题   考试   题目   ref   tps   增加   htm   完整   

具体公式和思想可以看

https://www.cnblogs.com/itmorn/p/11254448.html

先说结果:label平滑可以减小过拟合

  说白了,这个平滑就是一定程度缩小label中min和max的差距。损失函数实际上就是鼓励模型去接近对应的label,越接近loss越小,巴不得label为1的时候output是0.999。。。

但是这样真的好吗?或者说,是不是太过了,尤其针对像交叉熵这类loss,一旦output有些偏差,loss值就往无穷大走了,就逼迫模型去接近真实的label。

  万一好不容易接近label了,结果这条training data还是错的(是很有可能的),或者training data并没有完整覆盖所有类型,那就必须过拟合了,好比拼命学会的公式如果本来就是错的,或者你做了100道学习三角函数的题目,结果就做了2题几何题,那等你考试(test data)时候遇到几何题老想着把三角函数思想带入,那肯定得崩。

  所以,适当调整label,让两端的极值往中间凑凑,可以增加泛化性能

  对于DL:过犹不及,90就优秀了,为啥还要追求100?

 

标签平滑(label smoothing)的通俗理解

标签:tput   几何题   考试   题目   ref   tps   增加   htm   完整   

原文地址:https://www.cnblogs.com/whustczy/p/12520239.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!