码迷,mamicode.com
首页 >  
搜索关键字:reduce    ( 2830个结果
MongoDB group 数据不同字段distinct问题解决办法
近日被mongoDB的聚合难住了,条件:1、表中有字段mac,pv,ip,dates,type2、要求,根据ip来group,计算pv合计,不重复的mac数,不重复的ip数3、下面是解决办法,说明:MongoDB权威指南中使用的是对象,即"macs":{},然后在reduce里面用 in来查找,pr...
分类:数据库   时间:2014-07-10 00:16:14    阅读次数:252
Hadoop多目录输入,join,进入reduce,数据流分析
前言 在做需求时,经常遇到多个目录,也就是多个维度进行join,这里分析一下,数据是怎么流动的。 1、多目录输入 使用MultipleInputs.addInputPath()  对多目录制定格式和map 2、数据流分析 map按行读入数据,需要对不同的输入目录,打上不同的标记(这个方法又叫reduce端连接),map在输出后会进行partition和sort,按照key进行排序,然后输...
分类:其他好文   时间:2014-06-29 23:09:07    阅读次数:348
转】MapReduce: Simplified Data Processing(一)
摘要MapReduce是一个编程模型,和处理,产生大数据集的相关实现.用户指定一个map函数处理一个key/value对,从而产生中间的key/value对集.然后再指定一个reduce函数合并所有的具有相同中间key的中间value.下面将列举许多可以用这个模型来表示的现实世界的工作.以这种方式写...
分类:其他好文   时间:2014-06-29 00:17:14    阅读次数:369
hadoop 多目录输入,map到reduce如何排序
使用MultipleInputs.addInputPath 对多个路径输入 现在假设有三个目录,并使用了三个mapper去处理, 经过map处理后,输出的结果会根据key 进行join, 如果使用TextPair,会根据第一个字段jion,第二个字段排序 然后在作为reduce的输入,进行计算...
分类:其他好文   时间:2014-06-26 07:49:51    阅读次数:250
android中ViewHolder通用简洁写法
public class ViewHolder { // I added a generic return type to reduce the casting noise in client code @SuppressWarnings("unchecked") public static T g...
分类:移动开发   时间:2014-06-25 23:38:42    阅读次数:319
Python lambda和reduce函数
看到一篇博文写lambda和reduce函数,笔者小痒了一下,用Python实现一下:   #! /usr/bin/env python # -*-coding:utf-8-*-   import time import math   def test_reduce():    start_time = time.clock()    print reduce[A1] (lam...
分类:编程语言   时间:2014-06-24 20:37:10    阅读次数:272
hive的查询注意事项以及优化总结 .
一、控制Hive中Map和reduce的数量Hive中的sql查询会生成执行计划,执行计划以MapReduce的方式执行,那么结合数据和集群的大小,map和reduce的数量就会影响到sql执行的效率。除了要控制Hive生成的Job的数量,也要控制map和reduce的数量。1、map的数量,通常情...
分类:其他好文   时间:2014-06-23 07:48:43    阅读次数:288
M/R全排序
例如:1KW数据,200个map,100个reduce。(1)map阶段,每个map分别局部排序,得到200个排好顺序的结果(2)对所有的数据进行99个抽样s1,s2...s99(按照顺序排列)(3)根据每个map中数据在抽样数据的前后,将每个map划分成(最多)100个部分m1-1,m1-2......
分类:其他好文   时间:2014-06-21 16:23:11    阅读次数:181
How to reduce the size of logging database OR How to purge the old data from Logging Database
WSS logging database grows very fast and it cause the storage problem most of the time in sharepoint server 2010.To reduce the size of the logging dat...
分类:数据库   时间:2014-06-20 22:04:05    阅读次数:333
hadoop streaming 编程
概况Hadoop Streaming 是一个工具, 代替编写Java的实现类,而利用可执行程序来完成map-reduce过程。一个最简单的程序$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar-input myInputDirs...
分类:其他好文   时间:2014-06-17 15:33:54    阅读次数:330
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!