yarn是一个分布式的资源管理系统。 它诞生的原因是原来的MapReduce框架的一些不足: 1、JobTracker单点故障隐患 2、JobTracker承担的任务太多,维护Job状态,Job的task的状态等 3、在taskTracker端,使用map/reduce task表示资源过于简单,没 ...
分类:
其他好文 时间:
2016-05-10 02:02:22
阅读次数:
148
Shuffle描述数据从map task输出到reduce输入的这段过程 1、map端shuffle功能 1)分区:决定将map task 交给哪个reduce程序处理; 2)排序:对分区中的数据做排序处理 3)spill写入磁盘:将内存中数据写入磁盘 4)merge合并:将小文件合并成大文件 说明 ...
分类:
其他好文 时间:
2016-05-09 22:09:26
阅读次数:
217
针对前面介绍的输入格式,MapReduce也有相应的输出格式。默认情况下只有一个 Reduce,输出只有一个文件,默认文件名为 part-r-00000,输出文件的个数与 Reduce 的个数一致。 如果有两个Reduce,输出结果就有两个文件,第一个为part-r-00000,第二个为part-r ...
分类:
其他好文 时间:
2016-05-07 12:50:58
阅读次数:
194
针对前面介绍的输入格式,MapReduce也有相应的输出格式。默认情况下只有一个 Reduce,输出只有一个文件,默认文件名为 part-r-00000,输出文件的个数与 Reduce 的个数一致。 如果有两个Reduce,输出结果就有两个文件,第一个为part-r-00000,第二个为part-r-00001,依次类推
OutputFormat 接口
OutputFormat主...
分类:
其他好文 时间:
2016-05-07 07:49:27
阅读次数:
230
You are given a sequence {A1, A2, ..., AN}. You task is to change all the element of the sequence to 1 with the following operations (you may need to ...
分类:
其他好文 时间:
2016-05-06 20:21:25
阅读次数:
274
HBase是什么?
HBase是Apache Hadoop中的一个子项目,Hbase依托于Hadoop的HDFS作为最基本存储基础单元,通过使用hadoop的DFS工具就可以看到这些这些数据 存储文件夹的结构,还可以通过Map/Reduce的框架(算法)对HBase进行操作,如右侧的图所示:
为什么采用HBase?
HBase 不同于一般的关系数据库,它是一个适合...
分类:
其他好文 时间:
2016-05-06 15:33:53
阅读次数:
202
一、排序和聚集
hive中的order by能够预期产生完全排序的结果,但这个排序的过程只是使用一个reduce任务来完成的,这个面对大规模的数据集肯定不可行的
因此
sort by出现,它可以为每个reduce任务产生一个排序文件
distribute by
可以控制某个特定行应该到哪个reducer,目的在于进行后续的聚集操作
例如
from record2
select ye...
分类:
其他好文 时间:
2016-05-06 15:27:42
阅读次数:
208
The Dole QueueIn a serious attempt to downsize (reduce) the dole queue, The New National Green Labour Rhinoceros Party has decided on the following strategy. Every day all dole applicants will be place...
分类:
其他好文 时间:
2016-05-06 15:19:18
阅读次数:
141
在有些情况下,运行于Hadoop集群上的一些mapreduce作业本身的数据量并不是很大,如果此时的任务分片很多,那么为每个map任务或者reduce任务频繁创建Container,势必会增加Hadoop集群的资源消耗,并且因为创建分配Container本身的开销,还会增加这些任务的运行时延。如果能将这些小任务都放入少量的Container中执行,将会解决这些问题。...
分类:
其他好文 时间:
2016-05-05 22:45:10
阅读次数:
307
在 Hadoop MapReduce 中,JobTracker 具有两种不同的职责: 管理集群中的计算资源,这涉及到维护活动节点列表、可用和占用的 map 和 reduce slots 列表,以及依据所选的调度策略将可用 slots 分配给合适的作业和任务 协调在集群上运行的所有任务,这涉及到指导 ...
分类:
其他好文 时间:
2016-05-03 20:23:18
阅读次数:
190