看了下MapReduce的例子。再看了下Mapper和Reducer源码,理清了参数的意义,就o了。public class Mapperpublic class Reducer Map是打散过程,把输入的数据,拆分成若干的键值对。Reduce是重组的,根据前面的键值对,重组数据。 自己写M...
分类:
其他好文 时间:
2014-08-01 15:34:21
阅读次数:
205
在MongoDB2.2新出现的。聚集管道式基于数据处理管道概念建模的数据聚集框架。文档进入一个多阶段能将该文档转化为聚集结果的管道。
聚集管道提供了map-reduce方法了替代物,并在很多聚集任务中是首选的方案,因为map-reduce的复杂性可能是你不希望看到的。...
分类:
数据库 时间:
2014-07-25 11:22:31
阅读次数:
306
Map-reduce是一个考虑大型数据得到有用聚集结果的数据处理程式(paradigm).针对map-reduce操作,MongoDB提供来mapreduce命令....
分类:
数据库 时间:
2014-07-25 11:09:11
阅读次数:
275
MongoDB提供了大量在结果集上执行特定聚集操作的聚集操作方法。
尽量在使用范围上有限制,特别是和聚集管道、map-reduce相比较,但这些操作,为常规的数据处理提供了直接的语义。...
分类:
其他好文 时间:
2014-07-25 11:04:11
阅读次数:
135
hive是什么? 白话一点再加不严格一点,hive可以认为是map-reduce的一个包装。hive的意义就是把好写的hive的sql转换为复杂难写的map-reduce程序。 于是,hbase是什么? 同样白话一点加不严格一点,hbase可以认为是...
分类:
其他好文 时间:
2014-07-23 13:57:36
阅读次数:
268
Hive优化总结---by 食人花优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。长期观察hadoop处理数据的过程,有几个显著的特征:1.不怕数据多,就怕数据倾斜。2.对j...
分类:
其他好文 时间:
2014-07-22 22:55:15
阅读次数:
271
把CDH搭建起来了,跑其中的例子程序word-count。在控制台界面一直显示map 0% ?reduce 0% , 通过web页面查看job的状态一直是run,但是map没有执行。感觉是是资源的分配有问题。接着查看了任务的日志。 2014-07-04...
分类:
其他好文 时间:
2014-07-21 10:27:54
阅读次数:
822
配置建议: 1. ????In MR1, the mapred.tasktracker.map.tasks.maximum and mapred.tasktracker.reduce.tasks.maximum properties dictated how many map and reduce slots each TaskTracker had. ????T...
分类:
其他好文 时间:
2014-07-21 10:14:00
阅读次数:
279
1)Hadoop学习总结 (1)HDFS简介 (2)HDFS读写过程解析 (3)Map-Reduce入门 (4)Map-Reduce的过程解析 (5)Hadoop的运行痕迹 (6)Apache Hadoop 版本2)Hadoop-0.20.0源代码分析 (1)Hadoop-0.20.0...
分类:
其他好文 时间:
2014-07-19 23:14:35
阅读次数:
208
在使用union all的时候,系统资源足够的情况下,为了加快hive处理速度,可以设置如下参数实现并发执行set mapred.job.priority=VERY_HIGH;set hive.exec.parallel=true;设置map reduce个数-- 设置map capacityset...
分类:
其他好文 时间:
2014-07-19 21:37:25
阅读次数:
264