标签:
决策树从数据集合中提取出一系列的规则,这些规则可以用流程图表示,其数据形式非常容易理解;专家系统中就经常使用决策树。
1、决策树的构造:①采用ID3算法(最高信息增益)划分数据集;②递归创建决策树。
2、使用matplotlib的注解功能,可以将存储的树结构转化为容易理解的图形。
3、使用python的pickle模块可用于存储决策树的结构。
4、对于过度匹配的问题,可以通过裁剪树的手段来消除。
5、ID3算法适合处理标称型数据,如果是数值型数据,必须离散化。
6、还有其他的决策树算法,最流行的树C4.5和CART。无论是ID3还是C4.5最好在小数据集上使用,决策树分类一般只试用于小数据。当属性取值很多时最好选择C4.5算法,ID3得出的效果会非常差。
标签:
原文地址:http://www.cnblogs.com/lutaitou/p/5574037.html