一,循环机制及应用场景1.while循环用于编写通用迭代结构(非遍历);顶端测试为真即会执行循环体,并会重复多次测试直到为假后执行循环后的其他语句。2.for循环一个通用的序列迭代器,用于遍历任何有序的序列对象内的元素;可用于字符串、元组、列表和其它的内置可迭代对象,..
分类:
编程语言 时间:
2015-10-29 16:26:05
阅读次数:
261
python内置函数map/reduce/filter 这三个函数用的顺手了,很cool。filter()函数:filter函数相当于过滤,调用一个bool_func(只返回bool类型数据的方法)来迭代遍历每个序列中的元素。返回bool_func结果为true的元素的序列(注意弄清楚序列是什么意思...
分类:
编程语言 时间:
2015-10-28 19:06:20
阅读次数:
256
Spark作为一个新的分布式计算引擎正慢慢流行起来,越来越来的企业也准备用它的替换MapReduce,根据自己在工作的一些体会谈谈的优势。分布式计算归根到底还是一个Map和Reduce操作,Map操作对每个数据块进行计算,Reduce操作对结果进行汇总,现在一些NoSQL分布式数据库其实也是这么一套...
分类:
其他好文 时间:
2015-10-28 12:26:25
阅读次数:
254
写了一个MR程序。发现reducer居然没执行。然后查看了半天,没发现有什么问题,后来经博士指点,找到了原因。1.首先,检查reducer,即job.setReducerClass(**.class);2.reducer函数里public void reduce(Text key, Iterable...
分类:
其他好文 时间:
2015-10-26 20:19:44
阅读次数:
494
# -*- coding: utf-8 -*-#python 27#xiaodeng#函数式编程工具:filter和reduce#python内置函数中,map函数是用来进行函数式编程这类工具最简单的内置函数代数#函数式编程含义:#一种编程范式,也就是如何编写程序的方法论,是一种编程思想。#无法给予...
分类:
其他好文 时间:
2015-10-25 22:34:07
阅读次数:
276
1、下载并配置插件将下载的hadoop-eclipse-plugin-2.6.0.jar 放到Eclipse的dropins目录下,重启Eclipse.2、配置 hadoop 安装目录window ->preference -> hadoop Map/Reduce -> Hadoop install...
分类:
系统相关 时间:
2015-10-23 18:08:50
阅读次数:
311
下面的代码中AffairClient类中包含了三个内之类,分别对应于Hadoop Mapreduce程序运行所需的Mapper类,Reducer类,和主类。AffairClient类中其余方法用于配置和运行EMR程序。可以修改相关参数来对程序做适当调整。比如:修改map和reduce函数,添加com...
分类:
编程语言 时间:
2015-10-16 11:41:20
阅读次数:
392
例1:文件的字符串查找这里reduce不做merge的工作,因为每行都是不一样的,不能merge.与传统的grep程序相比,使用MapReduce可以加快处理,因为1它是Distributed的,不用把所有的文件都拷到一台机器上运行,你的data可以在不同的server上,原因2,它能并行处理,加快...
分类:
其他好文 时间:
2015-10-10 19:57:36
阅读次数:
380
Shuffle描述是一个过程,表现出的是多对多的依赖关系。Shuffle是连接map阶段和Reduce阶段的纽带,每个Reduce Task都会从Map Task产生的数据里读取其中的一片数据。Shuffle通常分为两个部分:Map阶段的数据准备和Reduce阶段的数据副本。 Map阶段根据Redu...
分类:
其他好文 时间:
2015-10-10 17:10:39
阅读次数:
193
主要解决一个问题,就是针对每次mapreduce的计算的时候希望通过一个缓存可以做做些查找,希望针对map或者reduce到的每条记录可以直接在内存中找到数据,如果找不到那么需要加载到内存!这个索引的结构也就是 这个三元组。原始数据如上图所示,现在还需要一个meta data去组织数据比如固定ke....
分类:
其他好文 时间:
2015-10-10 12:17:03
阅读次数:
301