码迷,mamicode.com
首页 > 其他好文 > 详细

机器学习基石4-在何时才能使用机器学习(4)

时间:2017-12-16 15:53:53      阅读:81      评论:0      收藏:0      [点我收藏+]

标签:log   png   learn   ssi   res   span   col   nec   www.   

            向杜少致敬

Lecture 4: Feasibility of Learning

 

4.1. Learning is Impossible?

  技术分享图片

 Q1:在训练集 (in-sample) 能找到一个 g ≈ f, 但是你不能保证在应用数据 (out-sample)还有 g ≈ f 。

 Q2:就算在某种约束下,你能保证在应用数据 (out-sample) g ≈ f。 如果我有多个 g ≈ f, 即 g≈ f、g≈ f、g3≈ f、… gn ≈ f。 如何找到在 out-sample 上性能最好的 gopt 呢?

 

4.2. Probalility to the Rescue

    learning 是做不到的!但是我们可以想一下,有没有学习用少量的已知的事实去推测整个样本的情况? 现在给你一个罐子,你能给出黄绿弹珠所占的比例是多少? 假设黄绿弹珠的分布较均匀,可以通过抽样的方法获取黄绿弹珠的比例。

技术分享图片

 

 假设在抽出的样本中 orange marble 的比例是 v, green marble 的比例是 1 -v。 罐子中的 orange marble 的比例是 μ, green marble 的比例是 1-μ。

v 和 μ 基本不相同,那要在什么样的条件下? v 和 μ 才能足够的接近?在数学中有个 Hoeffding‘s Inequality 能刻画出 v 和 μ 的接近程度。

$$ \mathbb{P} [|\nu -\mu |] \leqslant 2 exp(-2\epsilon^2N)  $$

 

 

   

 

 

4.3. Connection to Learning

 

4.4. Connection to Real Learning

 

机器学习基石4-在何时才能使用机器学习(4)

标签:log   png   learn   ssi   res   span   col   nec   www.   

原文地址:http://www.cnblogs.com/tmortred/p/8046440.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!