Hadoop在百度的应用领域主要包括:大数据挖掘与分析,日志分析平台,数据仓库系统,用户行为分析系统,广告平台等存储与计算服务。目前百度的Hadoop集群规模已经超过数十个至多,单集群节点数目超过5000台,每天处理的数据量超过8000TB。同时百度在Hadoop的基础上还开发了自己..
分类:
其他好文 时间:
2015-06-03 06:16:38
阅读次数:
363
1. C4.5C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法. C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进:1)用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;2)在树构造过程中进行剪枝;3)能够完成对连续属性的离...
分类:
编程语言 时间:
2015-04-23 12:30:07
阅读次数:
203
MPJ Express是一个线程安全的Java版本的并行消息传递库,基于这个消息库,用户即可使用JAVA作为编程语言来开发并行程序。特别是随着高性能平台的普及,面对大数据挖掘或处理任务,抑或是并行计算或编程任务,MPJ Express势必会有更加重要而广泛的应用。当然,由于MPJ Express目前仍然不是非常稳定,其最新版本为Version 0.43(更新日期为July 18. 2014),因此使用中仍然会遇到这样或那样的问题,本文将带领大家一同在Winindows 7 中快速搭建JAVA并行开发环境MP...
分类:
编程语言 时间:
2015-04-22 15:17:44
阅读次数:
194
1. 大数据挖掘实战平台建设是培养云计算与大数据时代新型数据分析人才的需要。 2. 大数据挖掘实战平台建设能有力促进及推动学校及各学院科研水平,为大数据的分析及挖掘提供基础平台。 3. 该工程与实战中心的建立能使学校走在全省高校,乃至全国高校前列,能为其余高校建立同类大数据挖掘实战平台提供示范经验,...
分类:
其他好文 时间:
2015-04-10 10:58:38
阅读次数:
230
本文所有涉及到的数据挖掘代码的都放在了我的github上了:https://github.com/linyiqun/DataMiningAlgorithm
大概花了将近2个月的时间,自己把18大数据挖掘的经典算法进行了学习并且进行了代码实现,涉及到了决策分类,聚类,链接挖掘,关联挖掘,模式挖掘等等方面。也算是对数据挖掘领域的小小入门了吧。下面就做个小小的总结,后面都是我自己相应算法的博文链接,希...
分类:
编程语言 时间:
2015-02-27 12:02:45
阅读次数:
143
近年来,南京地税通过探索大数据应用下的服务新模式,积极拓展服务新领域,建立起以客户为中心的精准服务体系。据了解,南京地税的精准服务体系主要依托其强大的数据仓库平台,通过充分应用大数据挖掘、分析等现代化的信息技术,将数据以不落地的方式直接推送办税前台、官方微信、12366系统等服务渠道,实现精准服务。...
分类:
其他好文 时间:
2015-02-26 16:21:55
阅读次数:
146
世界互联网大会,这个行业最最牛的盛世,齐聚了全国最牛的互联网大牛。各个大佬都在喷移动,云,大数据挖掘;但是这些东西都是大家都在做的,也是都能说的,但是互联网的未来不在这,巨头们都知道,也都在布局,这个他们不能说,也不敢说。那么互联网的未来在哪里? 也许互联网的未来在没有互联网,或者叫颠覆自己。早上看...
分类:
其他好文 时间:
2015-02-17 16:29:49
阅读次数:
118
今天继续和小伙伴们分享聚类算法和R语言的实现,上篇和大家分享了聚类中的距离、类间距离和最古典的层次聚类法,今天和大家分享几个动态聚类算法。
首先和大家分享被评为十大数据挖掘算法之一的K-means 算法(K为分类的个数,mean为平均值,该算法的难点即为K的指点)
Step1:选择K个点作为初始质心;
Step2:将剩余每个点指派到最近的质心,形成K个簇(聚类);
Step3:重新计算簇的...
分类:
编程语言 时间:
2014-12-12 11:47:35
阅读次数:
277
前面和大家分享的分类算法属于有监督学习的分类算法,今天继续和小伙伴们分享无监督学习分类算法---聚类算法。聚类算法也因此更具有大数据挖掘的味道
聚类算法本质上是基于几何距离远近为标准的算法,最适合数据是球形的问题,首先罗列下常用的距离:
绝对值距离(又称棋盘距离或城市街区距离)
Euclide距离(欧几里德距离,通用距离)
Minkowski 距离(闵可夫斯基距离),欧...
分类:
编程语言 时间:
2014-12-10 18:12:05
阅读次数:
280
AdaBoost Binary ClassifyAdaBoost MultidimensionalWEKA源码分析
分类:
编程语言 时间:
2014-11-29 18:46:37
阅读次数:
133