码迷,mamicode.com
首页 > 其他好文 > 详细

机器学习可行性分析

时间:2016-03-16 22:36:50      阅读:392      评论:0      收藏:0      [点我收藏+]

标签:

机器学习可行性分析(1)

1No free lunch

机器学习不是万能的,机器学习是通过学习样本D,推测样本D之外的其它的情况。如果样本D中存在任何未知的f,使用机器学习是注定失败的。我的理解是样本D中存在一些不是f的关系,机器学习的方法无法保证学到类似f的关系g,所以不能使用机器学习。参考课件中的三个例子

英文描述:

learning from D (to infer something outside D) is doomed if any ‘unknown’ f can happen.

2、如何计算大罐子中橙色弹珠的比例?

这是一个概率统计的问题,通过计算样本的情况,估计总体的情况。

“大”罐子的弹珠的比例不好计算,通过随机抓取样本,计算样本的橙色弹珠的比例。

关于这种统计方法得出的样本结果v,总体的实际情况u,样本数量N,误差技术分享

技术分享

3、罐子理论和机器学习时间的关系

机器学习与上述通过样本计算弹珠比例的十分相似。

对于给定的h,样本D中(N条记录)的错误率技术分享 ,样本之外的错误率 技术分享,也存在霍夫不等式的关系:

技术分享

也就是说技术分享

在实际机器学习中,面对多个h可以选择时,随着h的增加,出现错误的概率会增加。假设存在M个h:

技术分享
所以,当假设空间有限时(M),如果给定样本空间N足够大,发生BAD sample的概率非常大。此时学习是有效的

当假设空间无限大时,下一节讨论。

机器学习可行性研究(2)

1.回顾重要公式

技术分享

当假设空间H有限,大小为M,样本空间N足够大时,总存在训练错误率技术分享。合适的机器学习算法A使得样本空间的训练错误率接近为零时,技术分享 ,使用样本空间的训练出的g估计样本空间的情况,此时的学习是有效的。

2.假设空间大小HM

根据上面的公式,当M无限大时,机器学习是无效的

主要原因是计算M的时候使用UNION BOUND的方式,这样的上界太宽松了。实际上,由于不同的假设下发生坏是有很多重叠的,其实我们可以得到比M小得多的上界。

3.增长函数(Growth Function:描述假设空间m与样本N的大小的关系

positive rays: 技术分享

positive intervals: 技术分享

convex sets: 技术分享

2D perceptron: 技术分享  N>3

4.突破点(break point:对于某假设空间H,如果m(k)<2^k,则K是它的突破点,最小的k,称为最小突破点

对于存在突破点的假设空间H,技术分享

5.vc bound

根据突破点得到了技术分享 的多项式上界,希望对之前的不等式中的M进行替换。然而直接替换是存在问题的,具体的替换方法,严格的证明比较复杂,结果就是著名的vc 界(vc bound)

技术分享

课件中最后给了一个例子,

技术分享 ,ε=0.1,N=10000,计算BAD events 的VC bound,得到0.298

机器学习可行性分析

标签:

原文地址:http://www.cnblogs.com/wxquare/p/5285162.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!