近日被mongoDB的聚合难住了,条件:1、表中有字段mac,pv,ip,dates,type2、要求,根据ip来group,计算pv合计,不重复的mac数,不重复的ip数3、下面是解决办法,说明:MongoDB权威指南中使用的是对象,即"macs":{},然后在reduce里面用 in来查找,pr...
分类:
数据库 时间:
2014-07-10 00:16:14
阅读次数:
252
前言
在做需求时,经常遇到多个目录,也就是多个维度进行join,这里分析一下,数据是怎么流动的。
1、多目录输入
使用MultipleInputs.addInputPath() 对多目录制定格式和map
2、数据流分析
map按行读入数据,需要对不同的输入目录,打上不同的标记(这个方法又叫reduce端连接),map在输出后会进行partition和sort,按照key进行排序,然后输...
分类:
其他好文 时间:
2014-06-29 23:09:07
阅读次数:
348
摘要MapReduce是一个编程模型,和处理,产生大数据集的相关实现.用户指定一个map函数处理一个key/value对,从而产生中间的key/value对集.然后再指定一个reduce函数合并所有的具有相同中间key的中间value.下面将列举许多可以用这个模型来表示的现实世界的工作.以这种方式写...
分类:
其他好文 时间:
2014-06-29 00:17:14
阅读次数:
369
使用MultipleInputs.addInputPath 对多个路径输入
现在假设有三个目录,并使用了三个mapper去处理,
经过map处理后,输出的结果会根据key 进行join,
如果使用TextPair,会根据第一个字段jion,第二个字段排序
然后在作为reduce的输入,进行计算...
分类:
其他好文 时间:
2014-06-26 07:49:51
阅读次数:
250
public class ViewHolder { // I added a generic return type to reduce the casting noise in client code @SuppressWarnings("unchecked") public static T g...
分类:
移动开发 时间:
2014-06-25 23:38:42
阅读次数:
319
看到一篇博文写lambda和reduce函数,笔者小痒了一下,用Python实现一下:
#! /usr/bin/env python
# -*-coding:utf-8-*-
import time
import math
def test_reduce():
start_time = time.clock()
print reduce[A1] (lam...
分类:
编程语言 时间:
2014-06-24 20:37:10
阅读次数:
272
一、控制Hive中Map和reduce的数量Hive中的sql查询会生成执行计划,执行计划以MapReduce的方式执行,那么结合数据和集群的大小,map和reduce的数量就会影响到sql执行的效率。除了要控制Hive生成的Job的数量,也要控制map和reduce的数量。1、map的数量,通常情...
分类:
其他好文 时间:
2014-06-23 07:48:43
阅读次数:
288
例如:1KW数据,200个map,100个reduce。(1)map阶段,每个map分别局部排序,得到200个排好顺序的结果(2)对所有的数据进行99个抽样s1,s2...s99(按照顺序排列)(3)根据每个map中数据在抽样数据的前后,将每个map划分成(最多)100个部分m1-1,m1-2......
分类:
其他好文 时间:
2014-06-21 16:23:11
阅读次数:
181
WSS logging database grows very fast and it cause the storage problem most of the time in sharepoint server 2010.To reduce the size of the logging dat...
分类:
数据库 时间:
2014-06-20 22:04:05
阅读次数:
333
概况Hadoop Streaming 是一个工具, 代替编写Java的实现类,而利用可执行程序来完成map-reduce过程。一个最简单的程序$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar-input myInputDirs...
分类:
其他好文 时间:
2014-06-17 15:33:54
阅读次数:
330