理解随机森林
随机森林利用随机的方式将许多决策树组合成一个森林,每个决策树在分类的时候投票决定测试样本的最终类别。下面我们再详细说一下随机森林是如何构建的。
随机森林主要包括4个部分:随机选择样本;随机选择特征;构建决策树;随机森林投票分类。
给定一个训练样本集,数量为N,我们使用有放回采样到N个样本,构成一个新的训练集。注意这里是有放回的采样,所以会采样到重复的样本。详细来说,就是采样N次,每次采样一个,放回,继续采样。即得到了N个样本。
然后我们把这个样本集作为训练集,进入下面的一步。
在构建决策树的时候,我们前面已经讲过如何在一个节点上,计算所有特征的Information Gain(ID3) 或者 Gain Ratio(C4.5),然后选择一个最大增益的特征作为划分下一个子节点的走向。
但是,在随机森林中,我们不计算所有特征的增益,而是从总量为M的特征向量中,随机选择m个特征,其中m可以等于sqrt(M),然后计算m个特征的增益,选择最优特征(属性)。注意,这里的随机选择特征是无放回的选择!
所以,随机森林中包含两个随机的过程:随机选择样本,随机选择特征。
有了上面随机产生的样本集,我们就可以使用一般决策树的构建方法,得到一棵分类(或者预测)的决策树。需要注意的是,在计算节点最优分类特征的时候,我们要使用上面的随机选择特征方法。而选择特征的标准可以是我们常见的Information Gain(ID3) 或者 Gain Ratio(C4.5)。
通过上面的三步走,我们可以得到一棵决策树,我们可以重复这样的过程H次,就得到了H棵决策树。然后来了一个测试样本,我们就可以用每一棵决策树都对它分类一遍,得到了H个分类结果。这时,我们可以使用简单的投票机制,或者该测试样本的最终分类结果。
优点:
缺点:
原文地址:http://blog.csdn.net/puqutogether/article/details/41864237