今天在写一个MR的时候,用到了combiner。在使用过程中,遇到了一些问题,特此记录一下。Combiner分为两种,一种是可插拔的,一种是不可插拔的。可插拔的:Combiner和Reduce的处理逻辑是一样的,可以直接使用Reduce类进行处理。如果去掉Combiner,不影响结果。不可插拔:Co...
分类:
其他好文 时间:
2015-02-10 20:12:16
阅读次数:
179
Spark 优化
· 数据序列化
· 内存优化
o 确定内存使用
o 调整数据结构
o 序列化的RDD存储
o 垃圾回收调整
· 其它注意事项
o 并行粒度
o Reduce任务内存使用
o 广播大的变量
o 数据本地性
· 总结
基于内存的计算(当然也可以用磁盘)是Spark的一个重...
分类:
其他好文 时间:
2015-02-10 13:31:11
阅读次数:
204
在高速缓存中的数据处理
coherence提供了理想的基础设施建设数据网格服务和客户端和基于服务器的应用程序使用数据网格。在一个基本的层面上,相干可以在大量的服务器在网格管理一个巨大的数据量,它可以提供接近零延迟访问该数据,它支持跨数据的并行查询中的map-reduce方式;它支持数据库和EIS系统,作为该数据的记录系统的集成。此外,Coherence提供一些服务,这是建立有效的数据网格的理想选...
分类:
数据库 时间:
2015-02-09 14:12:51
阅读次数:
283
本篇主要介绍MapReduce的作业机制,并介绍介于Map和Reduce过程中的Shuffle和排序过程。
分类:
其他好文 时间:
2015-02-06 23:06:24
阅读次数:
263
1. 两者分别是什么? Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言,这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能,但是Hive不能够进行交互查询--因为它只能...
分类:
其他好文 时间:
2015-02-04 23:15:56
阅读次数:
433
自学python,很多地方都需要恶补。三个函数比较类似,都是应用于序列的内置函数。常见的序列包括list、tuple、str。1.map函数map函数会根据提供的函数对指定序列做映射。map函数的定义:map(function, sequence[, sequence, ...]) -> list通...
分类:
编程语言 时间:
2015-02-02 21:23:45
阅读次数:
183
默认情况下,一个 mapreduce job 只有一个 reducer ,真实应用中,作业都把它设置成一个较大的数字,否则由于所有的中间数据都会放到一个 reducer 任务中,造成性能瓶颈。 reducer 最优个数与集群中可用的 reduce...
分类:
其他好文 时间:
2015-02-01 19:15:39
阅读次数:
324
MapReduce方法主体: 1 public static IDictionary MapReduce(this IList inputList, 2 Func> map, Func, TResult> reduce) 3 { 4 C...
一:mapmap(...) map(function, sequence[, sequence, ...]) -> list说明:对sequence中的item依次执行function(item),执行结果输出为list。例子:>>> map(str, range(5)) ...
分类:
编程语言 时间:
2015-01-30 10:30:19
阅读次数:
236
本例中直接用python写一个MapReduce实例:统计输入文件的单词的词频使用python写MapReduce的“诀窍”是利用Hadoop流的API,通过STDIN(标准输入)、STDOUT(标准输出)在Map函数和Reduce函数之间传递数据。我们唯一需要做的是利用Python的sys.std...
分类:
编程语言 时间:
2015-01-29 20:57:30
阅读次数:
267