引言在之前的两节博文《混合和装袋》和《自适应提升》中,我们已经有现成的一堆假设g在手中,我们还如何将这些g混合起来,得到更好的分类器。
混合方式可以分为三种情况:
把g看做是同等地位,通过投票或者平均的方式将它们合起来,称为Bagging
g是不平等的,有好有坏,一个可行的做法是把g当成是特征的转换,然后丢进线性模型训练就可以了,这称为AdaBoost
如果是不同的条件下,使用不...
分类:
编程语言 时间:
2015-07-26 12:40:57
阅读次数:
172
引入我们回顾一下之前学习的两个算法,Bagging算法中,通过bootstrapping得到不一样的数据,通过这些数据送到一个基本算法之后,得到不同的g,最后对这些g取平均得到G;决策树算法中,通过递归方式建立子树,最终得到一棵完整的树。
这两种算法都有其鲜明的特点,决策树对于不同的数据相对会敏感一些,即其算法的variance很大,而Bagging的特点是通过投票和平均的方式来降低varianc...
分类:
编程语言 时间:
2015-07-26 12:39:46
阅读次数:
1131
引言上一节中介绍了《随机森林算法》,该算法使用bagging的方式作出一些决策树来,同时在决策树的学习过程中加入了更多的随机因素。该模型可以自动做到验证过程同时还可以进行特征选择。
这一节,我们将决策树和AdaBoost算法结合起来,在AdaBoost中每一轮迭代,都会给数据更新一个权重,利用这个权重,我们学习得到一个g,在这里我们得到一个决策树,最终利用线性组合的方式得到多个决策树组成的G。...
分类:
其他好文 时间:
2015-07-26 12:38:46
阅读次数:
149
参考NB:高效、易实现;性能不一定高LR:对数据的假设少,适应性强,可用于在线学习;要求线性可分决策树:易解释,对数据线性与否无关;易过拟合,不支持在线RF:快速并且可扩展,参数少;可能过拟合SVM:高准确率、可处理非线性可分数据(可处理高维数据);内存消耗大,难于解释,运行和调参麻烦
分类:
编程语言 时间:
2015-07-24 20:21:23
阅读次数:
136
【编者按】针对Quora上的一个老问题:不同分类算法的优势是什么?Netflix公司工程总监Xavier Amatriain近日给出新的解答,他根据奥卡姆剃刀原理依次推荐了逻辑回归、SVM、决策树集成和深度学习,并谈了他的不同认识。他并不推荐深度学习为通用的方法,这也侧面呼应了我们之前讨论的问题:深...
分类:
编程语言 时间:
2015-07-23 17:17:52
阅读次数:
110
什么是决策树其实网络上有着很多说明决策树的文章,比如参考资料中的1和2,主要是因为这个机器学习的方法实在太经典了,有着很多不同的算法实现,包括最早的由Quinlan在1986年提出的ID3算法、1993年同样是Quinlan提出的C4.5算法以及由Braiman等人在1984年提出的CART算法。尽...
分类:
其他好文 时间:
2015-07-22 06:53:59
阅读次数:
161
决策树和随机森林一、实验说明1. 环境登录无需密码自动登录,系统用户名shiyanlou,密码shiyanlou2. 环境介绍本实验环境采用带桌面的Ubuntu Linux环境,实验中会用到程序:1. LX终端(LXTerminal): Linux命令行终端,打开后会进入Bash环境,可以使用Lin...
分类:
编程语言 时间:
2015-07-18 10:47:11
阅读次数:
2529
这一节决策树其实是对前面的堆排序,快排等是最优的比较算法的证明, 首先说下《算法导论》上对决策树的定义:一棵决策树是一棵满二叉树(注意看下面解释),表示某排序算法作用于给定输入所做的所有比较,而控制结构,移动等都被忽略了。 注意:这里个人认为定义是错误的,决策树不是一棵满二叉树,连完全二叉树都不是。...
分类:
其他好文 时间:
2015-07-17 00:10:39
阅读次数:
242
应该是去年的这个时候,我开始接触机器学习的相关知识,当时的入门书籍是《数据挖掘导论》。囫囵吞枣般看完了各个知名的分类器:决策树、朴素贝叶斯、SVM、神经网络、随机森林等等;另外较为认真地复习了统计学,学习了线性回归,也得以通过orange、spss、R做一些分类预测工作。可是对外说自己是搞机器学习的...
分类:
编程语言 时间:
2015-07-16 16:18:12
阅读次数:
461