标签:
main idea:用与权重成正比的概率sampling生成数据训练DTree,并同时生成权重
sampling模拟权重,adaboost:
原始的adaboost需要在每笔资料的err上加上权重u
由于使用这种方法,需要修改原DTree的算法过程,所以使用sampling代替
方法如下---
数据i的权重为ui,则抽到的概率pi=ui/sum(ui) 正比于ui
训练生成每个小g的权重计算:
由于DTree在所有数据都被sample到的情况下完全生长,其Ein=0,使at无限大,会消除adaboost的效果
所以需要对DTree进行限制,通常可以采用 1 剪枝 2 限制树高度 的方法
(adaboost decision stump是 height=1的adaboost DTree)
标签:
原文地址:http://www.cnblogs.com/porco/p/4268545.html