全篇结论【分在同一组的一定同属一个分区。在一个分区的可重载"job.setGroupingComparatorClass(a.class);"中的a类的compare方法重新定义分组规则,同一组的value做为reduce的输入。】一、为什么写分区和分组在排序中的作用是不一样的,今天早上看书,又有点...
分类:
其他好文 时间:
2014-08-14 19:35:59
阅读次数:
236
适用于场景连接的列数据量很大,在分布式缓存中无法存储时,Bloom Filter 可解决这个问题,用很小的内存可有MAP端过滤掉不需要JOIN的数据,这样传到REDUCE的数据量减少,减少了网络传及磁盘IO。缺点Bloom Filter 会有一定的错误率,但是错误率很低,用空间换取了时间。并且,最终...
分类:
其他好文 时间:
2014-08-14 16:05:39
阅读次数:
284
Mongo的介绍:这个mongoDB官网说的好啊,MongoDB是一个开源的基于document的数据库,并且是NoSQL数据库的领导者,而且它是用C++写滴哈,很有效率,一些什么特点呢?
全索引支持,可以索引任何属性
复制和高可用性,可以在局域网和广域网扩展
自动分享,能线性伸缩而不影响他的功能
查询,丰富的查询
快速更新
Map/Reduce
GridFS
MongoDB Ma...
分类:
数据库 时间:
2014-08-13 22:27:27
阅读次数:
325
1345: [Baltic2007]序列问题SequenceTime Limit:5 SecMemory Limit:162 MBSubmit:556Solved:274[Submit][Status]Description对于一个给定的序列a1, …, an,我们对它进行一个操作reduce(i)...
分类:
其他好文 时间:
2014-08-11 17:03:42
阅读次数:
167
hadoop的计算模型就是map/reduce,每一个计算任务会被分割成很多互不依赖的map/reduce计算单元,将所有的计算单元执行完毕后整个计算任务就完成了。因为计算单元之间互不依赖所以计算单元可以分配到不同的计算机上执行,这样就可以将计算压力平摊到多个机器上面。当然性能线性提高是有条件的,....
分类:
其他好文 时间:
2014-08-11 14:38:52
阅读次数:
189
Here I share with you a demo for python map, reduce and filter functional programming that
owned by me(Xiaoqiang).
I assume there are two DB tables, that `file_logs` and `expanded_attrs` which re...
分类:
编程语言 时间:
2014-08-09 04:57:17
阅读次数:
525
hive> select product_id, track_time from trackinfo limit 5; Total MapReduce jobs = 1Launching Job 1 out of 1Number of reduce tasks ...
分类:
编程语言 时间:
2014-08-08 17:52:46
阅读次数:
313
1 定义hadoop是一个分布式系统架构。2 基本模块HDFS为海量数据提供了存储。Map/Reduce为海量数据提供了计算。3 子项目Hadoop Common: 在0.20及以前的版本中,包含HDFS、MapReduce和其他项目公共内容,从0.21开始HDFS和MapReduce被分离为独立的...
分类:
其他好文 时间:
2014-08-07 15:40:30
阅读次数:
239
mongodb的MapReduce主要包含两个方法:map和reduce。举个例子,假设现在有下面3条记录{ "_id" : ObjectId("4e5ff893c0277826074ec533"), "x" : [ "a", "b" ] }{ "_id" : ObjectId("4e5ff893c...
分类:
数据库 时间:
2014-08-06 18:50:27
阅读次数:
516
python可以写的非常简洁,我觉得这是pythonic的重要的一方面。例如def fromIpToNum(ipAddr): return reduce(lambda x,y:(x<<8)+y,map(int,ipAddr.split('.')))这就是一个从IP地址转换到数字的例子非常简洁。lam...
分类:
编程语言 时间:
2014-08-06 14:20:41
阅读次数:
208