码迷,mamicode.com
首页 > 其他好文 > 详细

过拟合

时间:2017-11-11 21:26:11      阅读:132      评论:0      收藏:0      [点我收藏+]

标签:为什么   区分   div   目的   告诉   gen   nap   消息   语言   

我的理解:应该是只是针对性的去针对了那个问题的情况

出处:

(1 条消息)用简单易懂的语言描述「过拟合 overfitting」? - 知乎
https://www.zhihu.com/question/32246256

指知乎上对过拟合的例子:

 

不知道大家在学车的时候教练教倒库和侧方停车的时候有没有教一串口诀:类似于在车窗的XX框切XX杆的时候打满,切XX的时候回正等等,这个口诀可以顺利让你通过科目二,然而换个车或者换个场地,你就发现并没有卵用... 我们说这只是overfit了某个车和某个场地(训练数据),在新的测试集(新车新场地)上的泛化性能为0。


作者:Naiyan Wang
链接:https://www.zhihu.com/question/32246256/answer/91932766
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
 
作者:sheenapunk
链接:https://www.zhihu.com/question/32246256/answer/55467528
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

一个overfitted模型记住太多training data的细节从而降低了generalization的能力。

举个栗子,给机器一堆人类的照片,告诉它性别,让它学习看照片区分男女。哇,机器好棒哦,一下子就能正确区分80%的照片的性别了!可是你觉得不够,怎么能容忍20%的错误率呢,啪啪啪键盘敲下去,让机器给我接着学。
机器不怎么聪明,可是记忆力和观察力是很强的!所以你一直push它的话,它会把每张照片每个像素的数值都记住的,这对每张照片都是独一无二的,再记住它的性别,就能100%区分出你给他的所有照片里人的性别了。

可是我们的目的不是让它成功区分这一堆照片里人的性别,而是让它看见新的不知道性别的人的照片时,可以成功预测性别。记住每个点的像素有个毛用?你会发现这个机器判断新的照片时表现很差。

这就是为什么要把training data切一小份(比如说10%)出来做validation,用剩下90%的data去train,然后用这10%检查一下train好的model,看看表现怎么样,防止over training。Cross validation也是这个意思,把data切10份,每次用一份做validation,做10次,能用到所有的training data。

过拟合

标签:为什么   区分   div   目的   告诉   gen   nap   消息   语言   

原文地址:http://www.cnblogs.com/Adaisme/p/7819940.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!