(转载请注明出处:http://blog.csdn.net/buptgshengod)1.背景
接着上一节说,没看到请先看一下上一节关于数据集的划分数据集划分。如今我们得到了每一个特征值得信息熵增益,我们依照信息熵增益的从大到校的顺序,安排排列为二叉树的节点。数据集和二叉树的图见下。(二叉树的图是....
分类:
编程语言 时间:
2014-06-03 07:23:48
阅读次数:
325
点击Open
file导入arff格式的数据,这里我导入weka内置的weather.numeric.arff数据集查看preprocess右边的三个按钮,分别是分类、聚类、关联分析,选择你需要使用的功能这里我选择分类,点击choose按钮选择要使用的分类方法这里选择j48,一种决策树算法,再点击s...
分类:
其他好文 时间:
2014-05-29 22:57:28
阅读次数:
462
参考:《机器学习实战》 优点:计算复杂度不高,
输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特 征数据。 缺点:可能会产生过度匹配问题。 适用数据类型:数值型和标称型。
创建分支的伪代码(createBranch): 图1 1、信息...
分类:
其他好文 时间:
2014-05-29 16:59:42
阅读次数:
401
原题地址:https://oj.leetcode.com/problems/n-queens/题意:经典的N皇后问题。解题思路:这类型问题统称为递归回溯问题,也可以叫做对决策树的深度优先搜索(dfs)。N皇后问题有个技巧的关键在于棋盘的表示方法,这里使用一个数组就可以表达了。比如board=[1,
...
分类:
编程语言 时间:
2014-05-26 10:07:52
阅读次数:
274
GML AdaBoost Matlab Toolbox是一款非常优秀的AdaBoost工具箱,内部实现了Real AdaBoost, Gentle AdaBoost和Modest AdaBoost三种方法。AdaBoost的训练和分类的结构都是相似的,可以参考前一篇《Boosting》,只简介一下GML。GML内部弱分类器使用的CART决策树。决策树的叶子表示决策,内部每个分支都是决策过程。从根部...
分类:
其他好文 时间:
2014-05-24 17:56:00
阅读次数:
375
//====================================================决策树的构造:构造决策树时,需要解决的第一个问题是,当前数据集上那个特征在划分数据是起决定性作用。为了找到决定性特征,我们必须使用某种度量来评估每个特征。完成评估之后,找到决定性特征,使用该特...
分类:
其他好文 时间:
2014-05-21 18:05:53
阅读次数:
343
总体理解Random
Forest(随机森林)算法是通过训练多个决策树,生成模型,然后综合利用多个决策树进行分类。随机森林算法只需要两个参数:构建的决策树的个数t,在决策树的每个节点进行分裂时需要考虑的输入特征的个数m。1.
单棵决策树的构建: (1)令N为训练样例的个数,则单棵决策树的输入样例的个...
分类:
其他好文 时间:
2014-05-19 13:28:18
阅读次数:
371
学习统计学习方法也已经有几天了,在这几天的时间里,我主要对分类学习方法进行了初步学习,包括:感知机——>支持向量机,K近邻法,朴素贝叶斯法,决策树,logistic
回归与最大熵模型。 其中k近邻法的实现为kd树,朴素贝叶斯通过极大似然估计实现,决策树包含有生成决策树算法ID3,C4.5,决策...
分类:
其他好文 时间:
2014-05-10 03:06:00
阅读次数:
225
(转载请注明出处:http://blog.csdn.net/buptgshengod)
1.背景
上一节学习支持向量机,感觉公式都太难理解了,弄得我有点头大。不过这一章的Adaboost线比较起来就容易得多。Adaboost是用元算法的思想进行分类的。什么事元算法的思想呢?就是根据数据集的不同的特征在决定结果时所占的比重来划分数据集。就是要对每个特征值都构建决策树,并且赋予他们不同的...
分类:
编程语言 时间:
2014-05-07 06:48:25
阅读次数:
569
系列文章:数据挖掘算法之决策树算法 [QQ群:
189191838,对算法和C++感兴趣可以进来]
k-means算法可以说是数据挖掘中十大经典算法之一了,属于无监督的学习。该算法由此衍生出了很多类k-means算法,比如k中心点等等,在数据挖掘领域,很多地方都会用到该算法,他能够把相似...
分类:
其他好文 时间:
2014-04-29 10:26:46
阅读次数:
491