码迷,mamicode.com
首页 > 其他好文 > 详细

机器学习基石笔记-Lecture 4 Learning is possible

时间:2017-06-20 16:19:13      阅读:219      评论:0      收藏:0      [点我收藏+]

标签:根据   定义   限制   分享   学习   image   class   nload   mod   

hoeffding 不等式 说明了在样本量足够大时,抽样估计能够接近真实值。

技术分享

技术分享

类比到ml中,对给定的一个假设空间中的h, 它在整个样本空间中的表现可以由在部分样本点上的表现来近似。也就是说样本足够多的时候,Ein与Eout近似相等。

技术分享

 

现在已经知道对任意给定的h,在N足够大时,Ein近似于Eout,如果 Ein 非常小,那么Eout也就小,就说明这个 h 和 真实的 f 在很大概率上是很接近的。

技术分享

 

现在的一个问题是,如果在多个假设中,其中一个假设h针对训练数据的输出都是正确的,也就是Ein为0,是不是就应该选择这个h作为算法A的输出?

 

这里提出一个 bad data的概念,对一个数据集D,h的Ein和Eout差别很大,那么这个数据集D就是不好的。

hoeffding不等式其实是对样本空间的一个“抽样”穷举,然后在很多次的抽样中,只有很少次的抽样是bad data,也就是让Ein和Eout差别比较大。所有说很大概率上Ein和Eout近似。

技术分享

 

对多个假设函数而言的bad data定义:

技术分享

对每一行h,根据hoeffding不等式,bad data的概率是很小的

对每一列Di,如果在某些h上是bad data,那么A就不能自由的选择。

像D1126就是对整个假设空间H或者说算法A是一个好的数据集(个人理解)

技术分享

对有M个h的假设空间,bad data出现的概率被限制住

技术分享

至此,对有限基数的假设空间,只要N足够大,不管A如何选g,训练数据如何选取,g的训练错误率和真实的错误率都很接近。

只要算法A找到一个Ein很小的g,那么就能够用来接近真实f。这样算法就有可能学到有用的知识。

技术分享

机器学习基石笔记-Lecture 4 Learning is possible

标签:根据   定义   限制   分享   学习   image   class   nload   mod   

原文地址:http://www.cnblogs.com/akanecode/p/7054607.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!