Partitioner就是对map输出的key进行分组,不同的组可以指定不同的reduce task处理;
Partition功能由partitioner的实现子类来实现
每写一段代码都会加深理解,程序里记录了自己的理解
FlowBean类源码:
package cn.zxl.flowcountpartitioner;
import java.io.DataInput;
import j...
分类:
其他好文 时间:
2015-05-31 12:30:41
阅读次数:
274
对于hadoop,我也处于了解学习中,参考大量资料,现在同大家分享下学习内容。
Hadoop 是Apache 下的一个项目,由HDFS、MapReduce、HBase、Hive 和ZooKeeper
等成员组成。其中,HDFS 和MapReduce 是两个最基础最重要的成员。
HDFS 是Google GFS 的开源版本,一个高度容错的分布式文件系统,它能够提供高吞
吐量的数据访问,适合存...
分类:
其他好文 时间:
2015-05-31 09:19:53
阅读次数:
129
一:起因
(0)Python的基本语法,对于一个学过其他语言的人来说,比较容易;但是要是熟练的应用 和 掌握Python的进阶语法还是有一段路要走的。
(1)With语句代替try……finally语句;yield语法之生成器generator,序列生成器;函数式编程(Map/Reduce/Filter等 ps:这里的Map/Reduce不是Hadoop的MR)
二:With基本语法
(1...
分类:
编程语言 时间:
2015-05-29 18:16:19
阅读次数:
155
本文主要讲解三个问题: 1 使用Java编写MapReduce程序时,如何向map、reduce函数传递参数。 2 使用Streaming编写MapReduce程序(C/C++, Shell, Python)时,如何向map、reduce脚本传递参数。 3 使用Streaming编写Ma...
分类:
其他好文 时间:
2015-05-28 19:47:59
阅读次数:
433
全排序 hive的排序关键字是SORT BY,它有意区别于传统数据库的ORDER BY也是为了强调两者的区别–SORT BY只能在单机范围内排序。 1.1.1? ???例1 set mapred.reduce.tasks=2; 原值 select cookie_id,page_id,i...
分类:
编程语言 时间:
2015-05-28 18:30:54
阅读次数:
185
全排序Hive的排序关键字是SORTBY,它有意区别于传统数据库的ORDERBY也是为了强调两者的区别–SORTBY只能在单机范围内排序。1.1.1例1setmapred.reduce.tasks=2;原值selectcookie_id,page_id,idfromc02_clickstat_fatdt1wherecookie_idIN(‘1.193.131.218.1288611279693.0‘,‘1.19..
分类:
编程语言 时间:
2015-05-28 18:21:20
阅读次数:
199
1.1 全排序
Hive的排序关键字是SORT BY,它有意区别于传统数据库的ORDER BY也是为了强调两者的区别–SORT BY只能在单机范围内排序。[/url][王黎1]
1.1.1 例1
set mapred.reduce.tasks=2;
原值
select cookie_id,page_id,id fromc02_clickstat_fatdt1
where c...
分类:
编程语言 时间:
2015-05-28 16:15:06
阅读次数:
237
我们在上一章学习了“Lambda 操作, Filter, Reduce 和 Map”, 但相对于map, filter, reduce 和lamdba, Guido van Rossum更喜欢用递推式构造列表(List comprehension)。在这一章我们将会涵盖递推式构造列表(List co...
分类:
编程语言 时间:
2015-05-28 01:58:13
阅读次数:
382
Mapreduce 工作机制图:图中1:表示待处理数据,比如日志,比如单词计数图中2:表示map阶段,对他们split,然后送到不同分区图中3:表示reduce阶段,对这些数据整合处理。图中4:表示二次mapreduce,这个是mapreduce的链式MapReduce组合式,迭代式,链式问题导读:...
分类:
其他好文 时间:
2015-05-27 20:50:12
阅读次数:
137
1、为何要BulkLoad 导入?传统的HTableOutputFormat 写 HBase 有什么问题?我们先看下 HBase 的写流程:通常 MapReduce 在写HBase时使用的是 TableOutputFormat 方式,在reduce中直接生成put对象写入HBase,该方式在大数据量...
分类:
其他好文 时间:
2015-05-27 19:00:52
阅读次数:
146