基础概念
随机森林是用随机的方式建立一个森林,森林里面有很多的决策树,并且每一棵决策树之间没有关联。也可说随机森林是决策树的组合模型,其中决策树的组合形式采用的是bagging的方式。
Bagging和Boosting(补充理解)
Bagging方法:
- 从整体样本集合中,抽取n(n<整体)个样本,并进行k轮抽取,得到k个数据集
- 对k个数据集,训练k个模型
- 结果选择:对于分类问题,结果选取分类器投票数最多的结果;对于回归问题:由k个模型预测结果的均值作为最后预测结果
Boosting方法:
- 没有先验知识的情况下,初始的分布应为等概分布,也就是训练集如果有 n个样本,每个样本的分布概率为1/ n。
- 每次循环后提高错误样本的分布概率,分错的样本在训练集中所占权重增大,使得下一次循环的基分类器能够集中力量对这些错误样本进行判断。
- 最后的强分类器是通过多个基分类器联合得到的,因此在最后联合时各个基分类器所起的作用对联合结果有很大的影响,因为不同基分类器的识别率不同,他的作用就应该不同,这里通过权值体现他的作用,因此识别率越高的基分类器权重越高,识别率越低的基分类器权重越低。
未完待续......