一、先理解MapReduce作业组成
一个完整的MapReduce作业称作job,它包括三部分:
输入数据MapReduce程序配置信息
Hadoop工作时会将job分成若干个task:map任务和reduce任务
有两类节点控制作业执行的过程:JobTracker和TaskTracker
JobTra...
分类:
其他好文 时间:
2014-12-01 20:55:53
阅读次数:
280
今天看了c++中的运算符重载,记录一下,以备后面查看:#include
using namespace std;
class F{
int n;
int d;
void reduce(){
int mcd = maxcd(n < 0 ? -n : n, d);
if(mcd != 1){
n /= mcd;
d /= mcd;
}
}
public:
F(...
分类:
编程语言 时间:
2014-11-30 21:29:08
阅读次数:
182
take 从列表中获取子列表into a b 把b conj 到a中(defn count-a-seq [lat] (reduce (fn [x y] (+ x 1)) 0 lat))reduce 将list通过fn一个个合并成一个,当然也可以只是对每个进行+1
分类:
其他好文 时间:
2014-11-27 23:30:56
阅读次数:
271
4). PageRank计算: PageRank.java 矩阵解释: 实现邻接与PR矩阵的乘法 map以邻接矩阵的行号为key,由于上一步是输出的是列,所以这里需要转成行 reduce计算得到未标准化的特征值 新建文件: PageRank.java package...
分类:
编程语言 时间:
2014-11-26 14:35:47
阅读次数:
406
在进行本文的操作之前要先搭建一个Hadoop的环境,为了便于实验,可采用单节点部署的方式,具体方法可参见:Centos 6.5 下Hadoop 1.2.1单节点环境的创建
编写源码
主要为创建一个解析气象数据的程序,可以从数据文件中选择气温最高的一年,采用Maven进行编译。下面只包含Maper,Reduce,以及Main函数的代码。完整项目代码请参见
https://g...
分类:
其他好文 时间:
2014-11-26 14:18:14
阅读次数:
535
本文由cmd markdown编辑,原始链接:https://www.zybuluo.com/jewes/note/35032RDD是什么?RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组 的区别是,RDD中的...
以WordCount为例在类WordCount中实现两个内部静态类(Map,Reduce)1、Mappublic static class Map extends MapReduceBase implements Mapper { private final static IntWritabl...
分类:
其他好文 时间:
2014-11-24 11:23:39
阅读次数:
236
Spark调优本文系根据官方文档翻译而来,转载请注明本文链接 http://www.oschina.net/translate/spark-tuning?print数据序列化内存优化确定内存用量调整数据结构序列化RDD存储垃圾收集调整其他考虑因素并行化水平Reduce任务的内存用量Broadcast...
分类:
Web程序 时间:
2014-11-24 09:56:40
阅读次数:
335
一. MapReduce执行过程
MapReduce运行的时候, 会通过Mapper运行的任务读取HDFS中的数据文件, 然后调用自己的方法处理数据, 最后输出. Reduce任务会接受Mapper任务输出的数据, 作为自己输入的数据, 然后调用自己的方法, 最后输出到HDFS的文件中....
分类:
其他好文 时间:
2014-11-23 23:18:51
阅读次数:
314
一、引子今天在跑一段很复杂而且涉及数据量10年的N个表join的长SQL时,发生了OOM的异常。由于一个map通常配置只有64MB或者128MB,则在Map阶段出现OOM的情况很少见。所以一般发生在reduce阶段。但是今天这个异常详细的看后,会发现既不是map阶段,也不是reduce阶段,发现不是执行过程,而是driver提交job阶段就OOM了。Hive中XMLEncoder序列化Mapred...
分类:
其他好文 时间:
2014-11-21 20:33:32
阅读次数:
234