码迷,mamicode.com
首页 >  
搜索关键字:reduce    ( 2830个结果
Hive操作之HQL语句
HQL操作1、Distribute by distribute by col按照col列把数据分散到不同的reduce sort sort by col 按照col列把数据排序 select col,co2 from table_name distribute by col1 sort by col...
分类:其他好文   时间:2015-03-29 23:34:18    阅读次数:311
MapReduce实现倒排索引
使用到Combiner编程(可插拔式) 在map端对输出先做合并,最基本是实现本地key合并,具有本地reduce功能 如果不用combiner,所有结果都是reduce完成,效率会底下 Combiner的的输入输出类型应该完全一致(实现如累加,最大值等功能) job.setCombinerClass(); 倒排索引基本实现 package cn.MapReduce.px; impo...
分类:其他好文   时间:2015-03-28 17:23:38    阅读次数:128
通过eclipse方法来操作Hadoop集群上cassandra数据库(包括创建Keyspace对象以及往数据库写入数据)
通过eclipse方法来操作Hadoop集群上cassandra数据库(包括配置cassandra,创建Keyspace对象以及往数据库写入数据); 创建map/reduce工程,命名为CassandraPro,需要把cassandra的lib目录下的jar包拷贝到hadoop的lib目录下;然后创建class,命名为TestClient;...
分类:数据库   时间:2015-03-28 14:21:59    阅读次数:151
MongoDb mapreduce
周四脑袋发热,突然想获取文档中id的最大值,发现mongodb中没有sql中max聚合函数,只能通过对整个文档使用sort和limit(1)获取最大值。感觉很不爽,突然想起map-reduce不就是聚合用的吗,于是乎就写了这个map-reduce的聚合功能。我的js一般,mongodb初学,很...
分类:数据库   时间:2015-03-21 13:51:46    阅读次数:260
一次因为数据问题引起的reduce被卡住streaming作业问题排查
广告产品技术部有一个作业总是卡在某个reduce上,运行了好几个小时也运行不完,经过他们初步排查找不着问题原因,发邮件让我帮看看,我看了一下这个streaming作业是用python实现的,而且听他们描述,3月17之前该作业是没问题的,以下是可能存在问题的地方:...
分类:其他好文   时间:2015-03-21 12:42:36    阅读次数:150
Spark Standalone Mode 单机启动Spark -- 分布式计算系统spark学习(一)
spark是个啥?Spark是一个通用的并行计算框架,由UCBerkeley的AMP实验室开发。Spark和Hadoop有什么不同呢?Spark是基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存...
分类:其他好文   时间:2015-03-20 12:49:49    阅读次数:306
深入讲解Hadoop管道
Hadoop管道是Hadoop MapReduce的C++接口的代称。与流不同,流使用标准输入和输出让map和reduce节点之间相互交流,管道使用sockets作为tasktracker与C++编写的map或者reduce函数的进程之间的通道。JNI未被使用。...
分类:其他好文   时间:2015-03-20 10:59:31    阅读次数:305
MapReduce Shuffle优化方向
Shuffle过程介绍可以查看该博客:http://langyu.iteye.com/blog/992916优化方向:压缩:对数据进行压缩,减少写读数据量;减少不必要的排序:并不是所有类型的Reduce需要的数据都是需要排序的,排序这个nb的过程如果不需要最好还是不要的好;内存化:Shuffle的数...
分类:其他好文   时间:2015-03-19 16:16:35    阅读次数:136
Hive Join Strategies hive的连接策略
Common Join 最为普通的join策略,不受数据量的大小影响,也可以叫做reduce side join ,最没效率的一种join 方式. 它由一个mapreduce job 完成. 首先将大表和小表分别进行map 操作, 在map shuffle 的阶段每一个m...
分类:其他好文   时间:2015-03-18 16:10:56    阅读次数:185
mongodb文档 aggregate章节阅读的笔记
aggregate 包含3中不同的类型: 1.管道 2.单一功能聚合 ? (count,group,distinct) 3.map-reduce 管道表达式 管道表达式仅能操作当前在管道中的文档,不能代表其他的文档. 通常,表达式是没有状态的,并且...
分类:数据库   时间:2015-03-15 20:00:18    阅读次数:170
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!