VFDT是一种基于Hoeffding不等式建立决策树的方法,透过不断地将叶节点替换为决策节点而生成,其中每个叶节点都保存有关于属性值的统计信息。 当一个新样本到达后,在树的每个节点都进行划分测试(判断?),根据不同...
分类:
其他好文 时间:
2015-07-16 12:08:33
阅读次数:
1296
原文:http://blog.csdn.net/qll125596718/article/details/8248249 监督学习中,如果预测的变量是离散的,我们称其为分类(如决策树,支持向量机等),如果预测的变量是连续的,我们称其为回归。回归分析中,如果只包括一个自变量和一个因变量,且二者的关系可...
分类:
编程语言 时间:
2015-07-12 00:03:50
阅读次数:
170
处理过拟合的方法:1、去噪(数据清洗);2、增加训练数据集(收集或构造新数据)3、正则化(L1、L2)4、减少特征数目5、对于决策树可以采用剪枝法6、采用组合分类器(装袋或随机森林)7、选择合适的迭代停止条件8、迭代过程中进行权值衰减(以某个小因子降低每个权值)
分类:
其他好文 时间:
2015-07-11 22:41:55
阅读次数:
478
这里先再次提出我们利用aggregation获取更好性能的Hypothesis G所涉及的方法:blending,就是在得到g_set之后进行融合;learning呢?就是在线online的获取g并融合。下面就是关于整个aggregation所涉及到的方法总结:
pic1
其中Bagging、AdaBoost我们都已经探讨,它们分别是基于uniform(voting / average)和no...
分类:
其他好文 时间:
2015-07-11 18:40:28
阅读次数:
321
前言 在机器学习经典算法中,决策树算法的重要性想必大家都是知道的。不管是ID3算法还是比如C4.5算法等等,都面临一个问题,就是通过直接生成的完全决策树对于训练样本来说是“过度拟合”的,说白了是太精确了。由于完全决策树对训练样本的特征描述得“过于精确” ,无法实现对新样本的合理分析, 所以此时它不....
分类:
编程语言 时间:
2015-07-11 16:20:16
阅读次数:
220
这是华为举办的一个软件竞赛,华为提供一个德州扑克台桌的server,我们要根据牌型等因素,给出出牌的策略,类似模拟牌手的程序。从知道挑战的题目到提交最终版本的程序中间只有一个月的时间,刚看到这个题目一点头绪没有,看了论文有用蒙特卡洛模拟,决策树等,各种没听过的词汇,感觉写出这个程序会很难,和我一个教研室的小伙伴们看到这个题目的时候陆续都放弃了。
思考了半天我也放弃了,因为接下来几...
分类:
其他好文 时间:
2015-07-11 09:12:40
阅读次数:
3398
ID3算法java实现
1 ID3算法概述
1.1 信息熵
熵是无序性(或不确定性)的度量指标。假如事件A的全概率划分是(A1,A2,...,An),每部分发生的概率是(p1,p2,...,pn),那信息熵定义为:
通常以2为底数,所以信息熵的单位是bit。
1.2 决策树
决策树是以实例为基础的归纳学习算法。它从一组无次序、无规则的元组中推理出决策树表示形式的分类规则。它...
分类:
编程语言 时间:
2015-07-10 19:04:15
阅读次数:
313
本文是要配合《统计学习方法》才能看懂的,因为中间有些符号和定义是直接使用书本中的先弄明白以下三个公式:1)Boost(提升法)=加法模型(即基函数的线性组合)+前向分步算法+损失函数2)Adaboost=Boost+损失函数是指数函数(基函数可以任意)3)提升树=Boost+基函数是决策树(损失函数...
分类:
其他好文 时间:
2015-07-07 10:59:09
阅读次数:
241
1. 什么是决策树(Decision Tree)
决策树是一种类似流程图的树形结构,每个内部节点表示一个测试(查询),该节点的每个分支表示该测试的一个结果,每个叶节点表示一个类别。决策树是一种简单但是广泛使用的分类器。通过训练数据构建决策树,可以高效的对未知数据进行分类。
2. 例子
ID
拥有房产
(是/否)
婚姻情...
分类:
其他好文 时间:
2015-06-29 22:16:55
阅读次数:
487
决策树模型呈现树状结构,可以认为是一组if-then规则的集合。在决策树当中,内部接节点是属性或者特征,叶子节点是一个类。一、三个阶段决策树的学习分为了三个方面:特征选择、决策树的生成、决策树的剪枝pruning二、详细解释决策树的学习本质上是从训练集当中总结归纳出一组分类规则。这一组分类规则应该应...
分类:
其他好文 时间:
2015-06-28 14:09:15
阅读次数:
90