搜索关键字：reduce，搜索到2830个结果！码迷,mamicode.com！

Hadoop学习---第四篇Mapreducer里的Partitioner

Partitioner就是对map输出的key进行分组，不同的组可以指定不同的reduce task处理； Partition功能由partitioner的实现子类来实现每写一段代码都会加深理解，程序里记录了自己的理解 FlowBean类源码： package cn.zxl.flowcountpartitioner; import java.io.DataInput; import j...

分类：其他好文时间：2015-05-31 12:30:41 阅读次数：274

hadoop学习（Map、Reduce、日志分析和数据挖掘、大数据处理）

对于hadoop，我也处于了解学习中，参考大量资料，现在同大家分享下学习内容。 Hadoop 是Apache 下的一个项目，由HDFS、MapReduce、HBase、Hive 和ZooKeeper 等成员组成。其中，HDFS 和MapReduce 是两个最基础最重要的成员。 HDFS 是Google GFS 的开源版本，一个高度容错的分布式文件系统，它能够提供高吞吐量的数据访问，适合存...

分类：其他好文时间：2015-05-31 09:19:53 阅读次数：129

Python进阶With语法

一：起因（0）Python的基本语法，对于一个学过其他语言的人来说，比较容易；但是要是熟练的应用和掌握Python的进阶语法还是有一段路要走的。（1）With语句代替try……finally语句；yield语法之生成器generator，序列生成器；函数式编程（Map/Reduce/Filter等 ps:这里的Map/Reduce不是Hadoop的MR）二：With基本语法（1...

分类：编程语言时间：2015-05-29 18:16:19 阅读次数：155

【hadoop】如何向map和reduce脚本传递参数,加载文件和目录

本文主要讲解三个问题： 1 使用Java编写MapReduce程序时，如何向map、reduce函数传递参数。 2 使用Streaming编写MapReduce程序(C/C++, Shell, Python)时，如何向map、reduce脚本传递参数。 3 使用Streaming编写Ma...

分类：其他好文时间：2015-05-28 19:47:59 阅读次数：433

hive全排序

全排序 hive的排序关键字是SORT BY，它有意区别于传统数据库的ORDER BY也是为了强调两者的区别–SORT BY只能在单机范围内排序。 1.1.1? ???例1 set mapred.reduce.tasks=2; 原值 select cookie_id,page_id,i...

分类：编程语言时间：2015-05-28 18:30:54 阅读次数：185

hive全排序

全排序Hive的排序关键字是SORTBY，它有意区别于传统数据库的ORDERBY也是为了强调两者的区别–SORTBY只能在单机范围内排序。1.1.1例1setmapred.reduce.tasks=2;原值selectcookie_id,page_id,idfromc02_clickstat_fatdt1wherecookie_idIN(‘1.193.131.218.1288611279693.0‘,‘1.19..

分类：编程语言时间：2015-05-28 18:21:20 阅读次数：199

hive全排序

1.1 全排序 Hive的排序关键字是SORT BY，它有意区别于传统数据库的ORDER BY也是为了强调两者的区别–SORT BY只能在单机范围内排序。[/url][王黎1] 1.1.1 例1 set mapred.reduce.tasks=2; 原值 select cookie_id,page_id,id fromc02_clickstat_fatdt1 where c...

分类：编程语言时间：2015-05-28 16:15:06 阅读次数：237

Python的递推式构造列表（List comprehension）

我们在上一章学习了“Lambda 操作， Filter, Reduce 和 Map”，但相对于map, filter, reduce 和lamdba, Guido van Rossum更喜欢用递推式构造列表（List comprehension)。在这一章我们将会涵盖递推式构造列表（List co...

分类：编程语言时间：2015-05-28 01:58:13 阅读次数：382

Mapreduce 工作机制图,MapReduce组合式，迭代式，链式

Mapreduce 工作机制图：图中1：表示待处理数据，比如日志，比如单词计数图中2：表示map阶段，对他们split，然后送到不同分区图中3：表示reduce阶段，对这些数据整合处理。图中4：表示二次mapreduce,这个是mapreduce的链式MapReduce组合式，迭代式，链式问题导读：...

分类：其他好文时间：2015-05-27 20:50:12 阅读次数：137

【hbase】——HBase 写优化之 BulkLoad 实现数据快速入库

1、为何要BulkLoad 导入？传统的HTableOutputFormat 写 HBase 有什么问题？我们先看下 HBase 的写流程：通常 MapReduce 在写HBase时使用的是 TableOutputFormat 方式，在reduce中直接生成put对象写入HBase，该方式在大数据量...

分类：其他好文时间：2015-05-27 19:00:52 阅读次数：146

共2830条上一页 1 ... 238 239 240 241 242 ... 283 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)