Hadoop的核心处理模块是MapReduce,也是当前最流行的大数据处理架构之一。它能够将Hadoop数据存储无缝的融入到数据处理当中,使得它在操作上足够简单,功能上足够强大。MapReduce已经解决很多实际问题(从日志分析,到数据排序,到文本操作,到基于模式的搜索,到图像处理,到机器学习等等)...
分类:
其他好文 时间:
2014-05-27 00:14:28
阅读次数:
449
mapreduce
job提交流程源码级分析(三)中已经说明用户最终调用JobTracker.submitJob方法来向JobTracker提交作业。而这个方法的核心提交方法是JobTracker.addJob(JobID
jobId, JobInProgress job)方法,这个addJob.....
分类:
其他好文 时间:
2014-05-26 23:20:49
阅读次数:
354
(1)链接数据库(2)选择相关数据(3)导入数据显示(4)第二种方案
直接打开一个csv文件(5)
设定存储位置得到插入csv文件的数据表(6)元数据视图和“数据视图”中查看数据集。注意是否有任何属性具有缺失或不一致的数据。(7)替换缺失值结果buying属性下的缺失个数为0(7)使用过滤器
过滤其...
分类:
Windows程序 时间:
2014-05-26 14:41:58
阅读次数:
1860
K-means算法是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一。K-means算法的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。Mahout kmeans MapReduce实现的原理和上述的一致,值得注意的是,Mahout将数据存储在HDFS,用MapReduce做批量并行的计算。在做kmeans之前,需要将文本用Mahout向量化模块工具做向量化。计算过程主要分为三个步骤:初始中心选取,寻找簇中心,划分数...
分类:
其他好文 时间:
2014-05-26 06:00:31
阅读次数:
239
对于开源的东东,尤其是刚出来不久,我觉得最好的学习方式就是可以看源码和doc,测试它的例子
为了方便查看源码,关联导入源码的项目
block数据块,在配置文件hdfs-default.xml中可以查看到,记住要修改不是在这里
block文件存储块是最基本的单位
查看block存放位置,配置文件中查看
如果文件大于64M会占两个块,meta文件是校验...
分类:
其他好文 时间:
2014-05-26 05:30:58
阅读次数:
227
1 用两个大括号括起来的文字{{person_name}} 称为变量2 被
大括号和面分号包围的文件({% if ordered_warranty %})是模板标签3 过滤器是用管道符(|)
和Unix管道符一样4一旦你创建一个Template对象,你可以用context来传递数据给它。 一个con...
分类:
编程语言 时间:
2014-05-26 01:28:12
阅读次数:
394
(转载请注明出处:http://blog.csdn.net/buptgshengod)1.参会有感 首先还是非常感谢CSDN能给我票,让我有机会参加这次中国云计算峰会。感觉不写点什么对不起CSDN送我的门票(看到网上卖一千多一张呢)。 还是得从国家会议中心说起,两年前lz曾经在那当过IDF的志愿者,当时是纯体力劳动,负责给参会人员发一些杂志什么的,当时苦逼的为了多蹭一个盒饭...
分类:
其他好文 时间:
2014-05-25 00:59:08
阅读次数:
458
通过顺序来选择
顺序选择的过滤器(filter)有
:first 第一个元素:last 最后一个元素:even 序号为偶数的元素:odd 序号为奇数的元素:eq(n) 序号等于n的元素 :lt(n)序号小于n的元素 :gt(n)序号大于n的元素
如果有如下的表格
0
even
1
odd
2
even
3
odd
4
even...
分类:
Web程序 时间:
2014-05-24 23:00:48
阅读次数:
381
最近在网上查看用MapReduce实现的Kmeans算法,例子是不错,http://blog.csdn.net/jshayzf/article/details/22739063但注释太少了,而且参数太多,如果新手学习的话不太好理解。所以自己按照个人的理解写了一个简单的例子并添加了详细的注释。大致的步...
分类:
其他好文 时间:
2014-05-24 10:41:01
阅读次数:
315