1. 查询语句可以加上一句: -- 定义job名字SET mapred.job.name='customer_rfm_analysis_L1'; 这样在job任务列表里可以第一眼找到自己的任务。 2. 少用distinct, 因为会把数据弄在一个reduce中,造成数据倾斜。 尽量用group by
分类:
其他好文 时间:
2016-02-19 18:55:45
阅读次数:
154
filter用法 filter(func,seq) 将seq的元素逐一代入func,通过func的返回值来判断是保留还是过滤 1 >>> def foo(x): 2 return x>3 3 4 >>> filter(foo,range(6)) 5 [4, 5] >>> filter(lambda
分类:
编程语言 时间:
2016-02-18 11:48:46
阅读次数:
185
一. 说明 Storm是一个分布式实时计算系统,Storm对于实时计算的意义就相当于Hadoop对于批量计算的意义。对于实时性较高的系统Storm是不错的选择。Hadoop提供了map, reduce原语,使批处理程序变得非常地简单和优美。同样,storm也为实时计算提供了一些简单优美的原语。 涉及
分类:
其他好文 时间:
2016-02-18 11:31:34
阅读次数:
221
var arr = [1,2,3,4,5]; // reduce 不会改变原数组 // 两两相加 var sum = arr.reduce(function(x, y) { return x+y; }); // 判断谁最大 var max = arr.reduce(function(x, y) {
分类:
编程语言 时间:
2016-02-18 10:03:30
阅读次数:
182
安装步骤: 1) JDK -- Hadoop是用Java写的,不安装Java虚拟机怎么运行Hadoop的程序; 2)创建专门用于运行和执行hadoop任务(比如map和reduce任务)的linux用户,就像windows下的服务账户,并且授权给他可以访问运行JDK目录权限,让他可以执行java虚拟
分类:
系统相关 时间:
2016-02-18 00:00:02
阅读次数:
521
python 3.0以后, reduce已经不在built-in function里了, 要用它就得from functools import reduce. reduce的用法 reduce(function, sequence[, initial]) -> valueApply a functi
分类:
编程语言 时间:
2016-02-17 10:41:04
阅读次数:
191
Python内置函数 lambda lambda表达式相当于函数体为单个return语句的普通函数的匿名函数。请注意,lambda语法并没有使用return关键字。开发者可以在任何可以使用函数引用的位置使用lambda表达式。在开发者想要使用一个简单函数作为参数或者返回值时,使用lambda表达式是
分类:
编程语言 时间:
2016-02-16 16:49:41
阅读次数:
284
1, 使用hive标记random:(如果是mr,就自己标记random值) use ps; set mapred.job.priority=VERY_HIGH; set mapred.job.map.capcity=300; set mapred.reduce.tasks=200; insert
分类:
其他好文 时间:
2016-02-16 14:45:04
阅读次数:
104
上午课程:6:00amHadoopMapReduce内幕解密:MR架构解密MR运行集群研究JAVA操作MR实战【随课笔记】:一:基于Yarn的MapReduce架构1.MapReduce代码程序是基于实现Mapper和Reducer两大阶段构成的,其中Mapper是把一个计算任务分解成很多小任务进行并行计算,Reduce进行最后的统计..
分类:
其他好文 时间:
2016-02-10 18:48:22
阅读次数:
284
转载请注明出处:王亟亟的大牛之路首先在这里祝愿大家,新年快乐,工作顺利,BUG少少!!!本来说是在春节假期内继续维持着写文章的进度,但是还是偷懒了几天(打了4天SC2哈哈哈)今天上的是关于Python的文章,毕竟在亲戚家拜年,懒得插各类手机调试什么的,况且确实好久没有弄Python了,就写了,废话不多,开始正题!!函数式编程函数是什么?把复杂的操作化为简单的函数分解成简单的操作,这种操作就是面向过程...
分类:
编程语言 时间:
2016-02-10 17:41:39
阅读次数:
210