搜索关键字：reduce，搜索到2830个结果！码迷,mamicode.com！

Hive操作之HQL语句

HQL操作1、Distribute by distribute by col按照col列把数据分散到不同的reduce sort sort by col 按照col列把数据排序 select col,co2 from table_name distribute by col1 sort by col...

分类：其他好文时间：2015-03-29 23:34:18 阅读次数：311

MapReduce实现倒排索引

使用到Combiner编程(可插拔式) 在map端对输出先做合并，最基本是实现本地key合并，具有本地reduce功能如果不用combiner，所有结果都是reduce完成，效率会底下 Combiner的的输入输出类型应该完全一致(实现如累加，最大值等功能) job.setCombinerClass(); 倒排索引基本实现 package cn.MapReduce.px; impo...

分类：其他好文时间：2015-03-28 17:23:38 阅读次数：128

通过eclipse方法来操作Hadoop集群上cassandra数据库（包括创建Keyspace对象以及往数据库写入数据）

通过eclipse方法来操作Hadoop集群上cassandra数据库（包括配置cassandra，创建Keyspace对象以及往数据库写入数据）；创建map/reduce工程，命名为CassandraPro,需要把cassandra的lib目录下的jar包拷贝到hadoop的lib目录下；然后创建class，命名为TestClient；...

分类：数据库时间：2015-03-28 14:21:59 阅读次数：151

MongoDb mapreduce

周四脑袋发热，突然想获取文档中id的最大值，发现mongodb中没有sql中max聚合函数，只能通过对整个文档使用sort和limit(1)获取最大值。感觉很不爽，突然想起map-reduce不就是聚合用的吗，于是乎就写了这个map-reduce的聚合功能。我的js一般，mongodb初学，很...

分类：数据库时间：2015-03-21 13:51:46 阅读次数：260

一次因为数据问题引起的reduce被卡住streaming作业问题排查

广告产品技术部有一个作业总是卡在某个reduce上，运行了好几个小时也运行不完，经过他们初步排查找不着问题原因，发邮件让我帮看看，我看了一下这个streaming作业是用python实现的，而且听他们描述，3月17之前该作业是没问题的，以下是可能存在问题的地方：...

分类：其他好文时间：2015-03-21 12:42:36 阅读次数：150

Spark Standalone Mode 单机启动Spark -- 分布式计算系统spark学习(一)

spark是个啥？Spark是一个通用的并行计算框架，由UCBerkeley的AMP实验室开发。Spark和Hadoop有什么不同呢?Spark是基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存...

分类：其他好文时间：2015-03-20 12:49:49 阅读次数：306

深入讲解Hadoop管道

Hadoop管道是Hadoop MapReduce的C++接口的代称。与流不同，流使用标准输入和输出让map和reduce节点之间相互交流，管道使用sockets作为tasktracker与C++编写的map或者reduce函数的进程之间的通道。JNI未被使用。...

分类：其他好文时间：2015-03-20 10:59:31 阅读次数：305

MapReduce Shuffle优化方向

Shuffle过程介绍可以查看该博客：http://langyu.iteye.com/blog/992916优化方向：压缩：对数据进行压缩，减少写读数据量；减少不必要的排序：并不是所有类型的Reduce需要的数据都是需要排序的，排序这个nb的过程如果不需要最好还是不要的好；内存化：Shuffle的数...

分类：其他好文时间：2015-03-19 16:16:35 阅读次数：136

Hive Join Strategies hive的连接策略

Common Join 最为普通的join策略，不受数据量的大小影响，也可以叫做reduce side join ,最没效率的一种join 方式. 它由一个mapreduce job 完成. 首先将大表和小表分别进行map 操作, 在map shuffle 的阶段每一个m...

分类：其他好文时间：2015-03-18 16:10:56 阅读次数：185

mongodb文档　aggregate章节阅读的笔记

aggregate 包含３中不同的类型：１．管道２．单一功能聚合 ? (count,group,distinct) ３．map-reduce 管道表达式管道表达式仅能操作当前在管道中的文档，不能代表其他的文档．通常，表达式是没有状态的，并且...

分类：数据库时间：2015-03-15 20:00:18 阅读次数：170

共2830条上一页 1 ... 247 248 249 250 251 ... 283 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)