码迷,mamicode.com
首页 >  
搜索关键字:reduce    ( 2830个结果
Hadoop学习---第四篇Mapreducer里的Partitioner
Partitioner就是对map输出的key进行分组,不同的组可以指定不同的reduce task处理; Partition功能由partitioner的实现子类来实现 每写一段代码都会加深理解,程序里记录了自己的理解 FlowBean类源码: package cn.zxl.flowcountpartitioner; import java.io.DataInput; import j...
分类:其他好文   时间:2015-05-31 12:30:41    阅读次数:274
hadoop学习(Map、Reduce、日志分析和数据挖掘、大数据处理)
对于hadoop,我也处于了解学习中,参考大量资料,现在同大家分享下学习内容。 Hadoop 是Apache 下的一个项目,由HDFS、MapReduce、HBase、Hive 和ZooKeeper 等成员组成。其中,HDFS 和MapReduce 是两个最基础最重要的成员。 HDFS 是Google GFS 的开源版本,一个高度容错的分布式文件系统,它能够提供高吞 吐量的数据访问,适合存...
分类:其他好文   时间:2015-05-31 09:19:53    阅读次数:129
Python进阶With语法
一:起因 (0)Python的基本语法,对于一个学过其他语言的人来说,比较容易;但是要是熟练的应用 和 掌握Python的进阶语法还是有一段路要走的。 (1)With语句代替try……finally语句;yield语法之生成器generator,序列生成器;函数式编程(Map/Reduce/Filter等 ps:这里的Map/Reduce不是Hadoop的MR) 二:With基本语法 (1...
分类:编程语言   时间:2015-05-29 18:16:19    阅读次数:155
【hadoop】如何向map和reduce脚本传递参数,加载文件和目录
本文主要讲解三个问题: 1 使用Java编写MapReduce程序时,如何向map、reduce函数传递参数。 2 使用Streaming编写MapReduce程序(C/C++, Shell, Python)时,如何向map、reduce脚本传递参数。 3 使用Streaming编写Ma...
分类:其他好文   时间:2015-05-28 19:47:59    阅读次数:433
hive全排序
全排序 hive的排序关键字是SORT BY,它有意区别于传统数据库的ORDER BY也是为了强调两者的区别–SORT BY只能在单机范围内排序。 1.1.1? ???例1 set mapred.reduce.tasks=2; 原值 select cookie_id,page_id,i...
分类:编程语言   时间:2015-05-28 18:30:54    阅读次数:185
hive全排序
全排序Hive的排序关键字是SORTBY,它有意区别于传统数据库的ORDERBY也是为了强调两者的区别–SORTBY只能在单机范围内排序。1.1.1例1setmapred.reduce.tasks=2;原值selectcookie_id,page_id,idfromc02_clickstat_fatdt1wherecookie_idIN(‘1.193.131.218.1288611279693.0‘,‘1.19..
分类:编程语言   时间:2015-05-28 18:21:20    阅读次数:199
hive全排序
1.1 全排序 Hive的排序关键字是SORT BY,它有意区别于传统数据库的ORDER BY也是为了强调两者的区别–SORT BY只能在单机范围内排序。[/url][王黎1] 1.1.1     例1 set mapred.reduce.tasks=2; 原值 select cookie_id,page_id,id fromc02_clickstat_fatdt1 where c...
分类:编程语言   时间:2015-05-28 16:15:06    阅读次数:237
Python的递推式构造列表(List comprehension)
我们在上一章学习了“Lambda 操作, Filter, Reduce 和 Map”, 但相对于map, filter, reduce 和lamdba, Guido van Rossum更喜欢用递推式构造列表(List comprehension)。在这一章我们将会涵盖递推式构造列表(List co...
分类:编程语言   时间:2015-05-28 01:58:13    阅读次数:382
Mapreduce 工作机制图,MapReduce组合式,迭代式,链式
Mapreduce 工作机制图:图中1:表示待处理数据,比如日志,比如单词计数图中2:表示map阶段,对他们split,然后送到不同分区图中3:表示reduce阶段,对这些数据整合处理。图中4:表示二次mapreduce,这个是mapreduce的链式MapReduce组合式,迭代式,链式问题导读:...
分类:其他好文   时间:2015-05-27 20:50:12    阅读次数:137
【hbase】——HBase 写优化之 BulkLoad 实现数据快速入库
1、为何要BulkLoad 导入?传统的HTableOutputFormat 写 HBase 有什么问题?我们先看下 HBase 的写流程:通常 MapReduce 在写HBase时使用的是 TableOutputFormat 方式,在reduce中直接生成put对象写入HBase,该方式在大数据量...
分类:其他好文   时间:2015-05-27 19:00:52    阅读次数:146
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!