标签平滑(label smoothing)的通俗理解

时间：2020-03-18 22:11:45 阅读：102 评论：0 收藏：0 [点我收藏+]

具体公式和思想可以看

https://www.cnblogs.com/itmorn/p/11254448.html

先说结果：label平滑可以减小过拟合

　　说白了，这个平滑就是一定程度缩小label中min和max的差距。损失函数实际上就是鼓励模型去接近对应的label，越接近loss越小，巴不得label为1的时候output是0.999。。。

但是这样真的好吗？或者说，是不是太过了，尤其针对像交叉熵这类loss，一旦output有些偏差，loss值就往无穷大走了，就逼迫模型去接近真实的label。

　　万一好不容易接近label了，结果这条training data还是错的（是很有可能的）,或者training data并没有完整覆盖所有类型，那就必须过拟合了，好比拼命学会的公式如果本来就是错的，或者你做了100道学习三角函数的题目，结果就做了2题几何题，那等你考试（test data）时候遇到几何题老想着把三角函数思想带入，那肯定得崩。

　　所以，适当调整label，让两端的极值往中间凑凑，可以增加泛化性能

　　对于DL：过犹不及，90就优秀了，为啥还要追求100？

标签平滑(label smoothing)的通俗理解

标签：tput 几何题考试题目 ref tps 增加 htm 完整

原文地址：https://www.cnblogs.com/whustczy/p/12520239.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行