CART算法原理与理解
CART算法的全称是分类回归树算法,分类即划分离散变量;回归划分连续变量。他与C4.5很相似,但是一个二元分类,采用的是类似于熵的GINI指数作为分类决策,形成决策树之后还要进行剪枝,我自己在实现整个算法的时候采用的是代价复杂度算法。
GINI指数
GINI指数主要是度量数据划分或训练数据集D的不纯度为主,系数值的属性作为测试属性,GINI值越小,表明样本的纯净度越高...
分类:
编程语言 时间:
2015-04-01 22:02:53
阅读次数:
324
Scrum Master 若只是从单一或表面的度量数据, 评定团队敏捷执行的现况, 往往会将团队导入更没效率, 更没质量的道路上。...
分类:
其他好文 时间:
2015-03-09 12:57:12
阅读次数:
116
图示
如上图所示红框部分,本人在做稳定性测试的时候,当flume运行几天后,我发现这个counter值逐渐变大,到一定值后,又变小了,有一个循环的过程,故而对此产生研究的欲望,下面来看看:
if (txnEventCount == 0) {
sinkCounter.incrementBatchEmptyCount();
} else if (txnEvent...
分类:
编程语言 时间:
2015-02-12 10:52:27
阅读次数:
1233
Ganglia是UC Berkeley发起的一个开源实时监视项目,用于测量数以千计的节点,为云计算系统提供系统静态数据以及重要的性能度量数据。Ganglia系统基本包含以下三大部分。
Gmond:Gmond运行在每台计算机上,它主要监控每台机器上收集和发送度量数据(如处理器速度、内存使用量等)。
Gmetad:Gmetad运行在Cluster的一台主机上,作为Web Server,或者...
分类:
其他好文 时间:
2015-01-27 11:22:37
阅读次数:
523
一、聚类:聚类也称之为自动分类,是一种无监督的学习方法。算法的原则是基于度量数据对象之间的相似性或相异性,将数据对象集划分为多个簇;相比较于分类技术,聚类只需要较少的专家知识(领域知识),就可以自动发掘数据集中的群组。
二、基本的聚类方法包括:
1、划分方法:该方法通常基于距离使用迭代重定位技术,通过将一个对象移入另外一个簇并更新簇心,典型的算法有K-均值算法和K-中心点算法(二者的主要区别在...
分类:
编程语言 时间:
2015-01-02 17:37:52
阅读次数:
193
数据挖掘中基本概念--数据类型的属性与度量 讨论一些与数据相关的问题,它们对于数据挖掘的成败至关重要。...
分类:
其他好文 时间:
2014-11-20 01:35:08
阅读次数:
292
Metrics可以为你的代码的运行提供无与伦比的洞察力。作为一款监控指标的度量类库,它提供了很多模块可以为第三方库或者应用提供辅助统计信息, 比如Jetty, Logback, Log4j, Apache HttpClient, Ehcache, JDBI, Jersey, 它还可以将度量数据发送给Ganglia和Graphite以提供图形化的监控。
Metrics提供了Gauge、Counter、Meter、Histogram、Timer等度量工具类以及Health Check功能。...
分类:
编程语言 时间:
2014-08-11 15:08:12
阅读次数:
753
本文使用三个例子,来说明如何灵活使用不同类型的度量数据,来表征生产率在短期、长期、内部、外部的实际情况。...
分类:
其他好文 时间:
2014-07-08 17:07:23
阅读次数:
163
相似数据检测算法对给定的一对数据序列计算两者之间的相似度([0,1], 1表示完全相同)或距离([0, ), 0表示完全相同),从而度量数据之间的相似程度。相似数据检测在信息科学领域具有非常重要的应用价值,比如搜索引擎检索结果的聚类与排序、数据聚类与分类、Spam检测、论文剽窃检测、重复数据删除、D...
分类:
其他好文 时间:
2014-07-01 23:15:24
阅读次数:
388