#!/usr/bin/env python3
# -*- coding: utf-8 -*-
def f(x):
return x * x
r = map(f, [1, 2, 3, 4, 5, 6, 7, 8, 9])
# 结果r是一个Itertator,是惰性序列
# 通过list()函数让它把整个序列都计算出来并返回一个list
print(list(r))
# [1, 4, 9, 16...
分类:
编程语言 时间:
2015-06-30 09:00:16
阅读次数:
163
先放上命令:hadoop jar /usr/hadoop-1.2.1/contrib/streaming/hadoop-streaming-1.2.1.jar -mapper mapper.py -file mapper.py -reduce reduce.py -file reduce.py -f...
分类:
编程语言 时间:
2015-06-29 00:31:58
阅读次数:
172
1. MapReduce介绍传统的关系型数据库中,只要你的数据是结构化的,你可以进行任何类型的查询。Apache Couch与此相反,它使用MapReduce(预定义的map和的reduce方法)进行查询。这种查询方式具有更好的灵活性,因为他们能适应各种类型的文档结构,并为每个文档索引独立计算和并行计算。这种将map和reduce结合使用的方式在CouchDB术语中称为“视图(View)”。与关系型...
分类:
其他好文 时间:
2015-06-27 21:29:36
阅读次数:
139
function forEach(array,action){ for(var i=0;i<array.length;i++) action(array[i]);}function reduce(combine,base,array){ forEach(array,function(ele...
分类:
编程语言 时间:
2015-06-25 22:50:33
阅读次数:
202
一、境遇接触Hadoop已经有半年了,从Hadoop集群搭建到Hive、HBase、Sqoop相关组件的安装,甚至SparkonHive、Phoenix、Kylin这些边缘的项目都有涉及。如果说部署,我自认为可以没有任何问题,但是如果说我对于这个系统已经掌握了,我却不敢这么讲,因为至少MapReduce我还没有熟..
分类:
其他好文 时间:
2015-06-24 16:42:14
阅读次数:
236
大表Join的数据偏斜
MapReduce编程模型下开发代码需要考虑数据偏斜的问题,Hive代码也是一样。数据偏斜的原因包括以下两点:
1. Map输出key数量极少,导致reduce端退化为单机作业。
2. Map输出key分布不均,少量key对应大量value,导致reduce端单机瓶颈。
Hive中我们使用MapJoin解决数据偏斜的问题,即将其中的某个表(全量)分发到所有Map端进...
分类:
其他好文 时间:
2015-06-24 12:58:02
阅读次数:
129
接着昨天的学习,我发现了数组的一些简便好玩的方法。归并方法:ECMAScript 5 新增了两个归并数组的方法: reduce() 和 reduceRight() 。这两个方法都会迭代数组的所有项,然后构建一个最终返回的值。其中, reduce() 方法从数组的第一项开始,逐个遍历到最后。而 red...
分类:
编程语言 时间:
2015-06-24 12:35:01
阅读次数:
125
喵~不知不觉到了CUDA系列学习第五讲,前几讲中我们主要介绍了基础GPU中的软硬件结构,内存管理,task类型等;这一讲中我们将介绍3个基础的GPU算法:reduce,scan,histogram,它们在并行算法中非常常用,我们在本文中分别就其功能用处,串行与并行实现进行阐述。1. Task complexitytask complexity包括step complexity(可以并行成几个操作)...
分类:
编程语言 时间:
2015-06-24 10:59:11
阅读次数:
234
当Hive的输入由很多个小文件组成时,如果不涉及文件合并的话,那么每个小文件都会启动一个map task。
如果文件过小,以至于map任务启动和初始化的时间大于逻辑处理的时间,会造成资源浪费,甚至发生OutOfMemoryError错误。
因此,当我们启动一个任务时,如果发现输入数据量小但任务数量多时,需要注意在Map前端进行输入小文件合并操作。
同理,向一个表写数据时,注意观察reduce...
分类:
其他好文 时间:
2015-06-23 23:12:55
阅读次数:
143
文章转载于:http://blog.csdn.net/ipolaris/article/details/8723782Hadoop中Combiner的使用在MapReduce中,当map生成的数据过大时,带宽就成了瓶颈,怎样精简压缩传给Reduce的数据,有不影响最终的结果呢。有一种方法就是使用Co...
分类:
其他好文 时间:
2015-06-23 19:50:21
阅读次数:
105