MapReduce框架内置了一些计数器的支持,当然,我们也可以设置自己的计数器用来满足一些特殊的要求。其实计数器可以用来完成很多事,关键要看你如何用,例如你想知道map输入数据的指定记录特定的信息有多少可以设置计数,还有,在MR执行过程中,一些特定事件的发生次数也可以记录。使用计数器的莫大好处在于整...
分类:
其他好文 时间:
2014-11-27 23:29:49
阅读次数:
269
Centos下部署Hadoop2.2,Win7下做MR开发。如何配置,点这里。...
分类:
系统相关 时间:
2014-11-25 18:31:17
阅读次数:
259
Knight Moves
Time Limit: 1000MS
Memory Limit: 30000K
Total Submissions: 22204
Accepted: 10374
Description
Background
Mr Somurolov, fabulous chess-gamer indeed, asse...
分类:
其他好文 时间:
2014-11-25 16:32:44
阅读次数:
168
A Famous Music Composer
时间限制:1000 ms | 内存限制:65535 KB
难度:1
描述
Mr. B is a famous music composer. One of his most famous work was his set of preludes. These 24 pieces span the 24 musical ...
分类:
其他好文 时间:
2014-11-25 16:29:10
阅读次数:
420
Turn the corner
Time Limit: 3000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)
Total Submission(s): 1899 Accepted Submission(s): 719
Problem Description
Mr. West bo...
分类:
其他好文 时间:
2014-11-24 22:39:25
阅读次数:
303
引言
Oozie是Hadoop生态系统中的工作流控制组件,可以调度MR,Hive,Shell等各类任务,并配置复杂的工作流程。
今天介绍如何安装部署,使用的是单机测试环境。
欢迎转载,请注明来源:
下载解压
下载安装过程需要的相关文件:
oozie4.0.0安装包
http://archive.cloudera.com/cdh5...
分类:
其他好文 时间:
2014-11-21 20:36:49
阅读次数:
346
写MR过程中经常会遇到多个源路径的输入,我们可以在MR程序主函数中通过FileInputFormat.addInputPaths(job,args[0])方法来实现,
args[0]可以是folder1或者folder1,folder2只要以逗号分隔就可以了。
这样在执行MR的时候,输入会将多个源路径全部多为map输入进行执行。
另外一种实现单输入的方法(只支持一...
分类:
其他好文 时间:
2014-11-21 10:49:44
阅读次数:
269
hadoop有两个东东:HDFS(存储)和MapReduce(计算)。MapReduce计算比较慢,于是Spark(速度是MR的10~100倍)出现了。Spark有两个核心的概念:弹性分布式数据集RDD与共享变量。下面进行一下简单的介绍。
弹性分布式数据集(RDD)获得方式:1
并行化驱动程序内的集合; 2
从外部数据集加载。
1 并行化驱动程序内的集合code demo
val d...
分类:
其他好文 时间:
2014-11-20 12:05:17
阅读次数:
296
随着西安市航天中学国际化办学的不断深入,对外交流活动的不断开展,近日,西安市航天中学迎来了英国皇家圣米歇尔学院校长Mr. Stuart Higgins及中国区主要负责人的到访,并与米歇尔学院缔结为友好学校。首先,徐世锋校长对来访嘉宾表示了热烈欢迎,双方学校介绍了各自学校的基本情况,随后,西安市航天中...
分类:
其他好文 时间:
2014-11-20 11:48:53
阅读次数:
208
场景:我们导入MR数据时发现磁盘空间不够用了,导致的结果就是我们的程序很可能会抛出异常了,我们需要导入数据的时候进行日志瘦身。问1:导入数据的时候,瘦身是否会造成数据库的异常?DBA提供解决方案:回答问1:没有问题。不会产生冲突。不过要给日子预留空间,防止被填满。1. 确认M_Develop 的恢复...
分类:
数据库 时间:
2014-11-19 18:29:46
阅读次数:
213