标签:
思路梳理:
决策树
|————Bagging[bootstrap抽样、投票分类]
|————Boosting[bootstrap抽样、分错元组权重上升、分类器上也加权重进而判断]
|————RandomForest[bootstrap抽样、n个特征找少量的建树分类、Cart算法(基尼系数、不剪枝),有利于并行化]
#个人觉得RF胡来,就是x预测x,结果还是x
#建树方面:ID3(信息增益) C4.5(信息增益率) CART(基尼系数,后剪枝) P221_韩家炜
|———以上,无非基于信息论折腾简单的数学公式,剪不剪枝or先剪后剪,
|———没必要依据死理,具体问题具体分析 [ps: 之所以RF效果好,是基于信息熵建树有问题,这也未可知啊...]
|———(但软件中封装好了,用的时候还是了解下,较好 ;不行自己改)
回归树
|————决策变量输出为连续变量
[其不需要经典回归中的独立性、正态性、线性、光滑性;但保证准确需要大量的数据]
#待研究 GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree)
标签:
原文地址:http://www.cnblogs.com/JoyHan/p/5618682.html