码迷,mamicode.com
首页 > 编程语言 > 详细

数据分析算法

时间:2014-12-08 17:10:12      阅读:191      评论:0      收藏:0      [点我收藏+]

标签:blog   http   ar   sp   strong   on   数据   art   log   

数据分析算法

决策树

决策树用于对数据集中的记录进行分类。

假设每条记录都含有若干条属性,决策树根据属性进行分类。

ID3算法

如何决定选取哪条属性来进行划分? 判断条件是根据该属性划分后数据集的信息熵最小(信息熵越小表明数据越整齐),也就是熵差值最大。

假设A属性共有n个取值,按照A划分后将获得n个分支,每个分支里的子数据集都删除了A属性。

递归地对分支里的数据集实施划分。最终达到不可分或者所有数据都是相同值为止。

这将生成一颗决策树。利用决策树的叶子节点进行分类

c4.5算法

ID3的扩展,区别:
1.选取划分属性时比较的是 熵差值/分裂度
2.c4.5运用了剪枝算法,减少噪点数据造成的过适应

http://blog.csdn.net/xuxurui007/article/details/18045943
http://blog.csdn.net/zjd950131/article/details/8027081

KNN

根据数据集的属性和每条记录的类别,判断新数据的类型。

计算数据点之间的距离,取最近的K个点中最多的类型作为新数据点的预测类型。
计算距离的方法distance = sqrt(delta(attributeX)**2 + delta(attributeY)**2 + delta(attributeX)**2 +...)

朴素贝叶斯(naive Bayes)

 

(待续)

数据分析算法

标签:blog   http   ar   sp   strong   on   数据   art   log   

原文地址:http://www.cnblogs.com/nocooldown/p/4151402.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!