标签:缺失值 bsp 信息论 www 算法 过拟合 com 特征 处理
这两篇文章(上,下)已经总结得很好了
http://www.cnblogs.com/pinard/p/6050306.html https://www.cnblogs.com/pinard/p/6053344.html
1.信息论的信息熵:Entropy
2.基尼不纯度:Gini impurity
常见三种决策树算法:决策树ID3算法, 决策树C4.5算法, CART分类树算法
ID3算法是用信息增益大小来判断当前节点应该用什么特征来构建决策树
ID3算法有四个主要的不足,一是不能处理连续特征,第二个就是用信息增益作为标准容易偏向于取值较多的特征,最后两个是缺失值处理的问和过拟合问题
C4.5算法使用信息增益比的变量IR(X,Y),它是信息增益和特征熵的比值
CART算法使用基尼系数来代替信息增益比,基尼系数代表了模型的不纯度,基尼系数越小,则不纯度越低,特征越好。这和信息增益(比)是相反的
标签:缺失值 bsp 信息论 www 算法 过拟合 com 特征 处理
原文地址:https://www.cnblogs.com/guodavid/p/10178933.html