决策树(Decison Tree)之所以称为树是因为其建模过程类似一棵树的成长过程,即从根部开始,到树干,到分支,再到细枝末叶的分叉,最终胜出出一片片的树叶。在数据树里面,所分析的数据数据样本先是成为一个树根,然后经过层层分支,最终形成若干个节点,每个节点代表一个结论。
决策树算法之所以在数据分析挖掘应用中如此流行,主要原因是在于决策树的构造不需要任何领域的知识,很适合探索式的数据挖掘,并且可以处理高纬度的数据。
策树技术对数据分布甚至缺失是非常宽容的,不容易受到极值的影响。这是由于,决策树是分参数的,所以不需要担心利群点和数据是否现行可分的问题,但是决策树最主要的缺点就是容易过度拟合,这也正是随机森林(Random Tree)等集成学习算法被提出了的原因。但是RT在很多分类问题中表现得最好(个人一般认为比SVM稍好),且速度可快扩展,也不像SVM那样需要调用大量的参数,因此RT是近期来非常流行的方法。
目前,最常见的3中决策树方法分别是:CHAIN,CART,和ID3(包括)
原文地址:http://www.cnblogs.com/chenyn68/p/3876835.html