最近项目研究大数据,即开始研究hadoop,主要参考以下几篇文章: 1.微信一篇hadoop的配置文章,我用的是mac,因此是一个all in one的配置,既不是分布式,也不是伪分布式,这点需要改进和学习 2.了解hadoop的map和reduce的过程 3.运行wordcount,先是用自带的统 ...
分类:
其他好文 时间:
2016-03-24 06:32:34
阅读次数:
193
MapReduce是一种编程模型,用于大规模数据集的并行计算,其主要思想就是Map(映射)和Reduce(化简)。MapReduce的创意和灵感来源于函数式编程,在函数式编程中,map对列表的每个元素执行操作或函数。例如:列表[1,2,3,4]上执行 multiple-by-two 函数会产生另一个
分类:
其他好文 时间:
2016-03-20 21:24:27
阅读次数:
173
Map-Reduce是一种计算模型,简单的说就是将大批量的工作(数据)分解(MAP)执行,然后再将结果合并成最终结果(REDUCE)。 MapReduce命令基本语法: db.collection.mapReduce( function() {emit(key,value);}, //map 函数
分类:
数据库 时间:
2016-03-20 17:46:04
阅读次数:
274
一. 什么是Spark?
Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需...
分类:
其他好文 时间:
2016-03-18 14:46:44
阅读次数:
318
Just like this!!!!!!!!!!!!!!!!
===============================================================
public static class Reduce extends MapReduceBase implements
Reducer {
@Override
public voi...
分类:
编程语言 时间:
2016-03-17 07:07:16
阅读次数:
205
Shuffle是MapReduce框架中的一个特定的phase,介于Map phase和Reduce phase之间,当Map的输出结果要被Reduce使用时,输出结果需要按key哈希,并且分发到每一个Reducer上去,这个过程就是shuffle。由于shuffle涉及到了磁盘的读写和网络的传输,
分类:
其他好文 时间:
2016-03-16 18:50:12
阅读次数:
138
1#Python提供的sum()函数可以接受一个list并求和,请编写一个prod()函数,可以接受一个list并利用reduce()求积:代码:2
3fromfunctoolsimportreduce
4li=[1,2,3,4,5,7]
5print(sum(li))
6
7defprod(x,y):
8returnx*y
9
10r=reduce(prod,li)
11print(r)运行结果:[root@HKPract..
分类:
编程语言 时间:
2016-03-16 01:42:53
阅读次数:
191
一、基本执行过程 MapReduce过程分为两个阶段:map函数阶段和reduce函数阶段 (1)map函数是用来筛选掉非需要的数据,以键值对的形式输出,键为文件位置偏移量,值为待分析的数据,map函数核心目的是形成对数据的索引,以供reduce函数方便对数据进行分析。 (2)reduce函数以Ma
分类:
其他好文 时间:
2016-03-14 21:30:25
阅读次数:
228
reduce()的用法 reduce把一个函数作用在一个序列[x1, x2, x3, ...]上,这个函数必须接收两个参数,reduce把结果继续和序列的下一个元素做累积计算 其效果就是:reduce(f, [x1, x2, x3, x4]) = f(f(f(x1, x2), x3), x4) 比如
分类:
其他好文 时间:
2016-03-12 17:12:32
阅读次数:
348
map(function(x,y),list,list) 列表与参数一致,返回列表 filter(function(x),list) list元素通过functoin过滤需要的元素 reduce(function(x,y),list,b)对list元素从左右传递y参数,x是function的结果,初
分类:
编程语言 时间:
2016-03-10 18:51:01
阅读次数:
181