hadoop 1.0 mapreduce过程主要问题:JobTracker 是 Map-reduce 的集中处理点,存在单点故障。JobTracker 完成了太多的任务,造成了过多的资源消耗,当 map-reduce job 非常多的时候,会造成很大的内存开销,潜在来说,也增加了 JobTracke...
分类:
其他好文 时间:
2014-06-18 20:00:19
阅读次数:
377
定义IntPair 以及IntPair(first,second)的compareto,先比較first的大小,再比較second的大小定义FirstPartitioner是为了让partition的时候依照IntPair的first来做为选择reduce的根据定义FirstGroupingComp...
分类:
其他好文 时间:
2014-06-18 18:57:15
阅读次数:
289
期间遇到了无法转value的值为int型,我採用try catch解决str2 2str1 1str3 3str1 4str4 7str2 5str3 9用的\t隔开,得到结果str1 1,4str2 2,5str3 3,9str4 7我这里map,reduce都是单独出来的类,用了自己定义的key...
分类:
其他好文 时间:
2014-06-18 18:35:21
阅读次数:
184
我们知道,一个典型的Map-Reduce过程包 括:Input->Map->Partition->Reduce->Output。Partition负责把Map任务输出的中间结果 按key分发给不同的Reduce任务进行处理。Hadoop 提供了一个很有用的partitioner类KeyFieldBa...
分类:
编程语言 时间:
2014-06-18 17:00:55
阅读次数:
332
MRv1
Storm
JobTracker
Nimbus
TaskTracker
Supervisor
Child
Worker
Job
Topology
Map/Reduce
Spout/Blot
shuffle
Stream grouping...
分类:
其他好文 时间:
2014-06-16 21:24:47
阅读次数:
228
Hive的TRANSFORM关键字提供了在SQL中调用自写脚本的功能,适合实现Hive中没有的功能又不想写UDF的情况。例如,按日期统计每天出现的uid数,通常用如下的SQLSELECT date, count(uid)FROM xxxGROUP BY date但是,如果我想在reduce阶段对每天...
分类:
其他好文 时间:
2014-06-15 09:03:50
阅读次数:
243
一年前,准备使用mongDb自带的map,reduce功能模拟hadoop,换个思路做一个简易的大数据分拆再结合存储的办法;这个功能可以用于数据日志或者游戏数据之类,进行周期性归纳和按照自己需求重组数据;以下代码实现了将每日数据collecttion:gameLog日期的数据统计出不同的collec...
分类:
数据库 时间:
2014-06-14 22:38:35
阅读次数:
432
reduce的个数到底和什么相关,本问题详细阐述了这个问题...
分类:
其他好文 时间:
2014-06-14 00:05:03
阅读次数:
362
Map-reduce是一种优雅的数据处理方式,本文通过三个例子介绍如何用python在linux的管道进行map-reduce编程,本文写的所有map-reduce程序都可以原封不动的放在Hadoop下运行,很容易在大数据集上扩展。
分类:
其他好文 时间:
2014-06-09 19:11:44
阅读次数:
253
经过前几天的学习,基本上能够小试牛刀编写一些小程序玩一玩了,在此之前做几项准备工作明白我要用hadoop干什么大体学习一下mapreduceubuntu重新启动后,再启动hadoop会报连接异常的问题答:数据提炼、探索数据、挖掘数据map=切碎,reduce=合并重新启动后会清空tmp目录,默认na...