hadoop 1.0 mapreduce过程主要问题:JobTracker 是 Map-reduce 的集中处理点,存在单点故障。JobTracker 完成了太多的任务,造成了过多的资源消耗,当 map-reduce job 非常多的时候,会造成很大的内存开销,潜在来说,也增加了 JobTracke...
分类:
其他好文 时间:
2014-06-18 20:00:19
阅读次数:
377
定义IntPair 以及IntPair(first,second)的compareto,先比較first的大小,再比較second的大小定义FirstPartitioner是为了让partition的时候依照IntPair的first来做为选择reduce的根据定义FirstGroupingComp...
分类:
其他好文 时间:
2014-06-18 18:57:15
阅读次数:
289
关于Java的HashMap.entrySet(),文档是这样描述的:这个方法返回一个Set,这个Set是HashMap的视图,对Map的操作会在Set上反映出来,反过来也是。原文是Returns a Set view of the mappings contained in this map. T...
分类:
编程语言 时间:
2014-06-18 18:43:57
阅读次数:
247
期间遇到了无法转value的值为int型,我採用try catch解决str2 2str1 1str3 3str1 4str4 7str2 5str3 9用的\t隔开,得到结果str1 1,4str2 2,5str3 3,9str4 7我这里map,reduce都是单独出来的类,用了自己定义的key...
分类:
其他好文 时间:
2014-06-18 18:35:21
阅读次数:
184
我们知道,一个典型的Map-Reduce过程包 括:Input->Map->Partition->Reduce->Output。Partition负责把Map任务输出的中间结果 按key分发给不同的Reduce任务进行处理。Hadoop 提供了一个很有用的partitioner类KeyFieldBa...
分类:
编程语言 时间:
2014-06-18 17:00:55
阅读次数:
332
Map生成器 map适配器如今能够使用各种不同的Generator,iterator和常量值的组合来填充Map初始化对象package org.rui.collection2.map;/** * map生成器 * @author lenovo * */public class Pair { publ...
分类:
其他好文 时间:
2014-06-18 14:28:05
阅读次数:
213
for(;iter!=mapStudent.end();){ if((iter->second)>=aa) { //满足删除条件,删除当前结点,并指向下面一个结点 mapStudent.erase(iter++); } else { //条件不满足,指向下面一个结点 iter++; }}这种删除方式...
分类:
其他好文 时间:
2014-06-18 13:47:29
阅读次数:
207
C++Map:mapmapstudent; mapstudent相当于一个键值对数组,存储元素是一个个的键值对。mapstudent.insert(pair(1,"std_one"));换种写法:Mapstudent[1]=”std_one”; 1是key,”std_one”是valuema...
分类:
编程语言 时间:
2014-06-17 20:51:38
阅读次数:
280
摘自:http://blog.chinaunix.net/uid-7374279-id-2057584.htmlHashMap是Hashtable的轻量级实现(非线程安全的实现),他们都完成了Map接口,主要区别在于HashMap允许空(null)键值(key),由于非线程安全,效率上可能高于Has...
分类:
编程语言 时间:
2014-06-17 19:53:20
阅读次数:
245
概况Hadoop Streaming 是一个工具, 代替编写Java的实现类,而利用可执行程序来完成map-reduce过程。一个最简单的程序$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar-input myInputDirs...
分类:
其他好文 时间:
2014-06-17 15:33:54
阅读次数:
330