三个臭皮匠顶个诸葛亮 --谁说的,站出来!1 前言 在科学研究中,有种方法叫做组合,甚是强大,小硕们毕业基本靠它了。将别人的方法一起组合起来然后搞成一个集成的算法,集百家之长,效果一般不会差。其实 也不能怪小硕们,大牛们也有这么做的,只是大牛们做的比较漂亮。 在PAC学习框架...
分类:
其他好文 时间:
2016-01-19 20:46:26
阅读次数:
429
的优点是,在一个决策树的形式数据是easy理解。和kNN最大的缺点是数据的内在含义,不能给予。1:这个概念很简单文字说明 决策树的类型有非常多。有CART、ID3和C4.5等。当中CART是基于基尼不纯度(Gini)的。这里不做具体解释,而ID3和C4.5都是基于信息熵的,它们两个得到的结果都是一样...
分类:
其他好文 时间:
2015-12-14 16:18:08
阅读次数:
204
library(randomForest)model.forest<-randomForest(Species~.,data=iris)pre.forest<-predict(model.forest,iris)table(pre.forest,iris$Species)library(rpart)...
分类:
编程语言 时间:
2015-11-01 15:17:44
阅读次数:
1437
1. 1、问题的引入 2、一个实例 3、基本概念 4、ID3 5、C4.5 6、CART 7、随机森林 2. 我们应该设计什么的算法,使得计算机对贷款申请人员的申请信息自动进行分类,以决定能否贷款? 一个女孩的母亲要给这个女孩介绍男朋友,于是有了下面的对话: 女儿:多大年纪了? 母亲:26。 女儿:...
分类:
编程语言 时间:
2015-09-29 23:20:37
阅读次数:
2173
随机森林入门攻略(内含R、Python代码)简介近年来,随机森林模型在界内的关注度与受欢迎程度有着显著的提升,这多半归功于它可以快速地被应用到几乎任何的数据科学问题中去,从而使人们能够高效快捷地获得第一组基准测试结果。在各种各样的问题中,随机森林一次又一次地展示出令人难以置信的强大,而与此同时它又是...
分类:
编程语言 时间:
2015-09-11 20:41:59
阅读次数:
423
大量研究表明,组合预测模型往往比单一预测模型的效果要好,而随机森林就是一种组合的预测方法,同时也是针对非线性、小样本的预测方法。国内用随机森林方法对煤与瓦斯突出进行预测的研究还很鲜见。因此,本文拟采用随机森林算法构建煤与瓦斯突出预测模型。
分类:
其他好文 时间:
2015-09-09 17:22:59
阅读次数:
298
你可能不知道的一些机器学习事儿
最近零零碎碎地看了很多机器学习方法的东西,增长了不少新知识。有很多小技巧虽然不会出现在教科书中,但它们真的很实用。
(1)随机森林模型不适合用稀疏特征。
(2)测试集必须使用与训练集相同的方法进行预处理。
(3)L1正则(特征选择)最小样本数目m与特征n呈log关系,m = O(log n) ;
L2正则(旋转不变)最小样本...
分类:
其他好文 时间:
2015-08-31 21:44:15
阅读次数:
234
Mahout的BreimanExample例子执行了
Leo Breiman: Random Forests. Machine Learning 45(1): 5-32 (2001)这篇论文的测试。
对它的分析我分为3个部分
- 森林生成的Iteration部分
- BreimanExample的测试执行部分
- 命令行执行部分Iteration部分迭代函数如下,对于训练数据集...
分类:
其他好文 时间:
2015-08-29 16:59:38
阅读次数:
206
1. 随机森林使用背景1.1 随机森林定义随机森林是一种比较新的机器学习模型。经典的机器学习模型是神经网络,有半个多世纪的历史了。神经网络预测精确,但是计算量很大。上世纪八十年代 Breiman等人发明分类树的算法(Breiman et al. 1984),通过反复二分数据进行分类或回归,计算量大大...
分类:
其他好文 时间:
2015-08-19 23:10:16
阅读次数:
817
简单来说,随机森林就是Bagging+决策树的组合(此处一般使用CART树)。即由很多独立的决策树组成的一个森林,因为每棵树之间相互独立,故而在最终模型组合时,每棵树的权重相等,即通过投票的方式决定最终的分类结果。随机森林算法主要过程:1、样本集的选择。 假设原始样本集总共有N个样例,则每轮从原始....
分类:
编程语言 时间:
2015-07-30 22:46:38
阅读次数:
225