标签:blog http ar sp strong on 数据 art log
决策树用于对数据集中的记录进行分类。
假设每条记录都含有若干条属性,决策树根据属性进行分类。
ID3算法
如何决定选取哪条属性来进行划分? 判断条件是根据该属性划分后数据集的信息熵最小(信息熵越小表明数据越整齐),也就是熵差值最大。
假设A属性共有n个取值,按照A划分后将获得n个分支,每个分支里的子数据集都删除了A属性。
递归地对分支里的数据集实施划分。最终达到不可分或者所有数据都是相同值为止。
这将生成一颗决策树。利用决策树的叶子节点进行分类
c4.5算法
ID3的扩展,区别:
1.选取划分属性时比较的是 熵差值/分裂度
2.c4.5运用了剪枝算法,减少噪点数据造成的过适应
http://blog.csdn.net/xuxurui007/article/details/18045943
http://blog.csdn.net/zjd950131/article/details/8027081
根据数据集的属性和每条记录的类别,判断新数据的类型。
计算数据点之间的距离,取最近的K个点中最多的类型作为新数据点的预测类型。
计算距离的方法distance = sqrt(delta(attributeX)**2 + delta(attributeY)**2 + delta(attributeX)**2 +...)
(待续)
标签:blog http ar sp strong on 数据 art log
原文地址:http://www.cnblogs.com/nocooldown/p/4151402.html