基于Greenplum Hadoop分布式平台的大数据解决方案及商业应用案例剖析适合人群:高级课时数量:96课时用到技术:MapReduce、HDFS、Map-Reduce、Hive、Sqoop涉及项目:Greenplum Hadoop大数据分析平台联系qq:1840215592Hadoop视频教程...
分类:
其他好文 时间:
2014-11-05 12:15:18
阅读次数:
187
hadoop的核心分为两块,一是分布式存储系统-hdfs,这个我已经在上一章节大致讲了一下,另一个就是hadoop的计算框架-mapreduce。mapreduce其实就是一个移动式的基于key-value形式的分布式计算框架。其计算分为两个阶段,map阶段和reduce阶段,都是对数据的处理,由于其入门非常简单,但是若想理解其中各个环节及实现细节还是有一定程度的困难,因此我计划在本文中只是挑几个...
分类:
其他好文 时间:
2014-11-03 11:33:05
阅读次数:
265
转载:http://blog.csdn.net/xiaowei_cqu/article/details/19839019Color Reduce使用经典的 Reduce Color的例子,即对图像中的像素表达进行量化。如常见的RGB24图像有256×256×256中颜色,通过Reduce Color...
分类:
其他好文 时间:
2014-11-02 22:26:54
阅读次数:
334
Hadoop中的Map Reduce框架依赖InputFormat提供数据,依赖OutputFormat输出数据,每一个Map Reduce程序都离不开它们。Hadoop提供了一系列InputFormat和OutputFormat方便开发,本文介绍几种常用的:TextInputFormat作为默认的...
分类:
其他好文 时间:
2014-11-01 11:25:17
阅读次数:
254
使用Spark有一段时间了,现在记录spark调优的一些经验。1.textFile的minparitition,只是设置最小的partition数目,下界(比如3),当数据量大的时候,改参数不起作用。可以尝试设置成10002. reduceByKey的并行度,也就是reduce的数目。 2.1 s....
分类:
其他好文 时间:
2014-10-31 23:30:55
阅读次数:
326
优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。
理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。
长期观察hadoop处理数据的过程,有几个显著的特征:
1.不怕数据多,就怕数据倾斜。
2.对jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几...
分类:
其他好文 时间:
2014-10-31 10:13:42
阅读次数:
350
众所周知,Hadoop框架使用Mapper将数据处理成一个键值对,再网络节点间对其进行整理(shuffle),然后使用Reducer处理数据并进行最终输出。 在上述过程中,我们看到至少两个性能瓶颈:如果我们有10亿个数据,Mapper会生成10亿个键值对在网络间进行传输,但如果我们只是对数据求最大值...
分类:
其他好文 时间:
2014-10-30 20:32:28
阅读次数:
283
Python特殊语法filter、map、reduce、lambda...
分类:
编程语言 时间:
2014-10-30 19:12:40
阅读次数:
199
MapReduce是一个编程模型,和处理,产生大数据集的相关实现.用户指定一个map函数处理一个key/value对,从而产生中间的key/value对集.然后再指定一个reduce函数合并所有的具有相同中间key的中间value.下面将列举许多可以用这个模型来表示的现实世界的工作.以这种方式写的程...
分类:
其他好文 时间:
2014-10-29 23:47:03
阅读次数:
441
前言 Hadoop流提供了一个API,允许用户使用任何脚本语言编写Map函数或Reduce函数。 本文对此知识点进行介绍。Hadoop流的工作原理 在以前的例子中,Map和Reduce工作都是由类来执行的,但在Hadoop流技术背景下,任何编制好的程序都能做这两个工作。 执行Map的应用程序...
分类:
其他好文 时间:
2014-10-29 19:13:49
阅读次数:
140