HQL操作1、Distribute by distribute by col按照col列把数据分散到不同的reduce sort sort by col 按照col列把数据排序 select col,co2 from table_name distribute by col1 sort by col...
分类:
其他好文 时间:
2015-03-29 23:34:18
阅读次数:
311
使用到Combiner编程(可插拔式)
在map端对输出先做合并,最基本是实现本地key合并,具有本地reduce功能
如果不用combiner,所有结果都是reduce完成,效率会底下
Combiner的的输入输出类型应该完全一致(实现如累加,最大值等功能)
job.setCombinerClass();
倒排索引基本实现
package cn.MapReduce.px;
impo...
分类:
其他好文 时间:
2015-03-28 17:23:38
阅读次数:
128
通过eclipse方法来操作Hadoop集群上cassandra数据库(包括配置cassandra,创建Keyspace对象以及往数据库写入数据);
创建map/reduce工程,命名为CassandraPro,需要把cassandra的lib目录下的jar包拷贝到hadoop的lib目录下;然后创建class,命名为TestClient;...
分类:
数据库 时间:
2015-03-28 14:21:59
阅读次数:
151
周四脑袋发热,突然想获取文档中id的最大值,发现mongodb中没有sql中max聚合函数,只能通过对整个文档使用sort和limit(1)获取最大值。感觉很不爽,突然想起map-reduce不就是聚合用的吗,于是乎就写了这个map-reduce的聚合功能。我的js一般,mongodb初学,很...
分类:
数据库 时间:
2015-03-21 13:51:46
阅读次数:
260
广告产品技术部有一个作业总是卡在某个reduce上,运行了好几个小时也运行不完,经过他们初步排查找不着问题原因,发邮件让我帮看看,我看了一下这个streaming作业是用python实现的,而且听他们描述,3月17之前该作业是没问题的,以下是可能存在问题的地方:...
分类:
其他好文 时间:
2015-03-21 12:42:36
阅读次数:
150
spark是个啥?Spark是一个通用的并行计算框架,由UCBerkeley的AMP实验室开发。Spark和Hadoop有什么不同呢?Spark是基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存...
分类:
其他好文 时间:
2015-03-20 12:49:49
阅读次数:
306
Hadoop管道是Hadoop MapReduce的C++接口的代称。与流不同,流使用标准输入和输出让map和reduce节点之间相互交流,管道使用sockets作为tasktracker与C++编写的map或者reduce函数的进程之间的通道。JNI未被使用。...
分类:
其他好文 时间:
2015-03-20 10:59:31
阅读次数:
305
Shuffle过程介绍可以查看该博客:http://langyu.iteye.com/blog/992916优化方向:压缩:对数据进行压缩,减少写读数据量;减少不必要的排序:并不是所有类型的Reduce需要的数据都是需要排序的,排序这个nb的过程如果不需要最好还是不要的好;内存化:Shuffle的数...
分类:
其他好文 时间:
2015-03-19 16:16:35
阅读次数:
136
Common Join 最为普通的join策略,不受数据量的大小影响,也可以叫做reduce side join ,最没效率的一种join 方式. 它由一个mapreduce job 完成. 首先将大表和小表分别进行map 操作, 在map shuffle 的阶段每一个m...
分类:
其他好文 时间:
2015-03-18 16:10:56
阅读次数:
185
aggregate 包含3中不同的类型: 1.管道 2.单一功能聚合 ? (count,group,distinct) 3.map-reduce 管道表达式 管道表达式仅能操作当前在管道中的文档,不能代表其他的文档. 通常,表达式是没有状态的,并且...
分类:
数据库 时间:
2015-03-15 20:00:18
阅读次数:
170