自助采样包含训练集里63.2%的样本?

时间：2018-10-25 14:03:12 阅读：195 评论：0 收藏：0 [点我收藏+]

自助采样包含训练集里63.2%的样本?

在学习随机森林的时候，经常会看到这么一句话“ 自助采样法给bagging带来的好处就是:由于每个学习器只是使用了%63.2的数据,剩下的约%36.8的样本可以用作验证集来对泛化性能进行“包外估计”。“

那么这个63.2%是怎么来的呢？假设我们有n个样本，有放回的进行抽取，那么每个样本不被抽取的概率为\(1 - \dfrac{1}{n}\)。我们需要抽取n轮，那么某个样本一直不被抽到的概率为
\[ p=（1 - \dfrac{1}{n})^n \]
当n足够大的时候有
\[ p = \lim_{n\to +\infty}(1 - \dfrac{1}{n})^n \]
这个p该怎么算？实际上在课本里有一个公式
\[ e^x=\lim_{n\to\infty}(1 + \dfrac{x}{n})^n \]
当x=-1的时候对应着上述的p，由此可得自助采样没有采到的样本大概占整个样本集的\(e^{-1}\)，那么自助采样包含训练集里的样本即为\(1 - e^{-1} \approx 0.632 \approx \dfrac{2}{3}\)

自助采样包含训练集里63.2%的样本?

标签：怎么假设 lin 使用估计 play 学习概率 span

原文地址：https://www.cnblogs.com/crackpotisback/p/9849090.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行