把CDH搭建起来了,跑其中的例子程序word-count。在控制台界面一直显示map 0% ?reduce 0% , 通过web页面查看job的状态一直是run,但是map没有执行。感觉是是资源的分配有问题。接着查看了任务的日志。 2014-07-04...
分类:
其他好文 时间:
2014-07-21 10:27:54
阅读次数:
822
配置建议: 1. ????In MR1, the mapred.tasktracker.map.tasks.maximum and mapred.tasktracker.reduce.tasks.maximum properties dictated how many map and reduce slots each TaskTracker had. ????T...
分类:
其他好文 时间:
2014-07-21 10:14:00
阅读次数:
279
常见案例一:空值产生的数据倾斜日志表有一部分的user_id为空或者是0的情况,导致在用user_id进行hash分桶时,会将日志由user_id为0或者为空的数据分到一个reduce上,导致数据倾斜;如:访户未登录时,日志中的user_id为空,用user_id和用户表的user_id进行关联的时...
分类:
其他好文 时间:
2014-07-21 00:25:23
阅读次数:
305
数据倾斜:数据分布不均匀,造成数据大量的集中到一点,造成数据热点;由于数据并不是平均分配的,会导致各个节点上处理的数据量是不均衡的,所以数据倾斜是无法避免的;造成数据倾斜的最根本原因:key分发不均匀造成的;常见的数据倾斜的症状1) Map阶段快,reduce阶段非常慢;2) 某些map很快,某些m...
分类:
其他好文 时间:
2014-07-20 22:18:56
阅读次数:
232
Reduce数决定中间或落地文件数,文件大小和Block大小无关。1、Reduce个数的决定因素reduce个数的设定极大影响任务执行效率,不指定reduce个数的情况下,Hive会猜测确定一个reduce个数,基于以下两个设定:参数1:hive.exec.reducers.bytes.per.re...
分类:
其他好文 时间:
2014-07-20 09:12:58
阅读次数:
335
1)Hadoop学习总结 (1)HDFS简介 (2)HDFS读写过程解析 (3)Map-Reduce入门 (4)Map-Reduce的过程解析 (5)Hadoop的运行痕迹 (6)Apache Hadoop 版本2)Hadoop-0.20.0源代码分析 (1)Hadoop-0.20.0...
分类:
其他好文 时间:
2014-07-19 23:14:35
阅读次数:
208
在使用union all的时候,系统资源足够的情况下,为了加快hive处理速度,可以设置如下参数实现并发执行set mapred.job.priority=VERY_HIGH;set hive.exec.parallel=true;设置map reduce个数-- 设置map capacityset...
分类:
其他好文 时间:
2014-07-19 21:37:25
阅读次数:
264
在Java里面,当A类继承B类,在B类里面重写(或叫覆写/override)A类的方法时,有一个规定,那就是:子类的该方法的权限修饰符范围应该是大于等于父类。 class A{ protected method() { } } class B extends A{ private ...
分类:
编程语言 时间:
2014-07-18 20:39:24
阅读次数:
252
是针对单个作业,针对本job再怎么优化也不会影响到其他job;Hadoop的负载主要有两部分:CPU负载和IO负载;问题:机器io开销很大,但是机器的cpu开销较小,另外map输出文件也较大,怎么办?解决办法:通过设置map的中间输出进行压缩就可以了,这个不会影响最终reduce的输出。集群中的机器...
分类:
其他好文 时间:
2014-07-18 20:29:09
阅读次数:
384
In a serious attempt to downsize (reduce) the dole queue, The New National Green Labour Rhinoceros Party has decided on the following strategy. Every ...
分类:
其他好文 时间:
2014-07-18 20:15:42
阅读次数:
234