bagging 是bootstrap aggregating的缩写,是第一批用于多分类集成算法。
bagging算法如下:
循环K次,每次都从样本集D中有放回地抽取样本集Di,这样总共得到k个样本集,用这K个样本集进行决策树生成,获得K个决策树模型,再将要检测的数据用这K个决策树模型进行多数表决,获得票数多的结论。
这种思想跟现代民主投票制度如出一辙,一个人再厉害,判断力也是有限的,但是...
分类:
其他好文 时间:
2014-06-15 19:28:13
阅读次数:
805
卡特兰数
栈是一种常见的数据结构,有许多关于栈的问题,其中之一就是统计元素可能的出栈序列。具体说,就是给定n个元素,依次通过一个栈,求可能的出栈序列的个数。
如果我们用直接模拟的方法,当n较大时会很费时间;
例如动态规划。令f[i,j]表示栈内有i个元素且栈外有j个元素还未进栈,那么以进栈还是出栈为决策就马上得到了转移方程f[i,j]=f[i-1,j]+f[i+1,j-1]。如此一来,很...
分类:
其他好文 时间:
2014-06-11 06:29:56
阅读次数:
296
动态规划的基本思想:将一个问题分解为子问题递归求解,且将中间结果保存以避免反复计算。通经常使用来求最优解,且最优解的局部也是最优的。求解过程产生多个决策序列,下一步总是依赖上一步的结果,自底向上的求解。动态规划算法可分解成从先到后的4个步骤:1.
描写叙述一个最优解的结构,寻找子问题,对问题进行划分...
分类:
其他好文 时间:
2014-06-10 15:00:23
阅读次数:
217
这部分讨论决策理论与 PGM 的关系,一个主要的思路就是将决策与 PGM 的 inference
完美的融合在一起。MEU为了引入决策理论中的 maximum expected utility
原则,我们先引入一些概念:lottery(彩票)是一个结果与概率的映射关系,用户对不同的 lottery ...
分类:
其他好文 时间:
2014-06-08 23:29:23
阅读次数:
433
目前已有很多方法和技术用于构造分类模型,如决策树、神经网络、贝叶斯方法、Fisher线性分析(Fld)以及支持向量机(Support Vector
Machine, SVM)。基于超完备字典的信号稀疏分解是一种新的信号表示理论,其采用超完备的冗余函数系统代替传统的正交基函数,为信号自适应的稀疏扩展提...
分类:
其他好文 时间:
2014-06-08 21:02:36
阅读次数:
22018
报表系统:主要用于决策:选择,投影是基本的数据操作。=====================================主要是对业务数据进行汇总。物化视图:定时抽取汇总数据,方便用户查询观看。纬度表:多个角度对数据进行分析比如上卷下钻操作。基本表:元数据表(基本的控制数据)。内存缓存:减少数据...
分类:
其他好文 时间:
2014-06-08 20:15:30
阅读次数:
266
算法复杂度用来表示在解决某个问题时,算法的性能表现。
复杂度上限,就是某个具体的已经实现的算法能够保证在一定时间内解决问题
复杂度下限,就是通过数学方法证明,所有的算法都必须花费一定的时间才能解决问题
最优化算法,就是可能达到的最小复杂度的算法,通常介于复杂度上限和下限之间
比如排序问题中:
计算模型为决策树
使用比较次数作为开销...
分类:
其他好文 时间:
2014-06-08 18:20:02
阅读次数:
190
之前写过决策树的一篇blog。
这几天看数据挖掘导论发掘一些新的东西,记录下来。
增加了过拟合,剪枝,即其他纯度计算方法等内容。...
分类:
其他好文 时间:
2014-06-08 03:12:07
阅读次数:
269
运行HBase时常会遇到个错误,我就有这样的经历。
ERROR: org.apache.hadoop.hbase.MasterNotRunningException: Retried 7 times
检查日志:org.apache.hadoop.ipc.RPC$VersionMismatch: Protocol org.apache.hadoop.hdfs.protocol.ClientPr...
分类:
其他好文 时间:
2014-06-08 03:02:50
阅读次数:
395