MapReduce源码分析之MapTask详解的后半段文章。在分析过程中我们知道了MapTask是如何使用循环缓存区管理数据,知道了数据在缓存不下是如何做spill处理的,spill输出的数据格式,combiner如何处理,如何将多一个文件merge为一个等等。也希望通过阅读这部分源码能学习到部分设计思路,能在未来的设计中提供多一种思路。...
分类:
其他好文 时间:
2014-08-05 00:47:18
阅读次数:
484
按照文档:http://www.micmiu.com/bigdata/hadoop/hadoop2x-eclipse-mapreduce-demo/安装配置好Eclipse后,运行WordCount程序报错: log4j:WARN No appenders could be found for lo...
前言 MapReduce的源码分析是基于Hadoop1.2.1基础上进行的代码分析。 该章节会分析在MapTask端的详细处理流程以及MapOutputCollector是如何处理map之后的collect输出的数据。 map端的主要处理流程
图1 MapTask处理流程 图1所示为MapTask的主要代码执行流程,在MapTask启动后会进入入口run函数,根据是否使用...
分类:
其他好文 时间:
2014-07-14 13:31:33
阅读次数:
392
我记得早在2001年,Gartner公司的一份研究报告首次出现“大数据(BigData)”概念的提法。但是到今天业内对“大数据”一词的定义说法不一,但越来越多的研究机构和网络媒体开始关注它。大数据正成为继云计算之后新的热词。同云计算一样,大数据虽然也看不见摸不到,却与今天的I..
分类:
其他好文 时间:
2014-07-01 09:57:44
阅读次数:
263
在测试sqoop语句的时候,一定要限制记录数量,否则就像我刚才,等了1个多小时,才看到测试结果。????sqoop-import --options-file media_options.txt --table my_table --where "ID = 2" --target-dir /user/jenkins/bigdata/import/20140607 -m 1 --fields-ter...
分类:
其他好文 时间:
2014-06-08 04:57:18
阅读次数:
350
The network is naturally bigdataing, while bigdata is
inherently networking.
--yeasy@blog
用英文表达似乎更加准确一些。
计算机科学发展了半个世纪,而网络的出现极大推动了计算机相关技术的爆发式进步。
计算机或网络领域所研究的典型问题,往往都是追求高性能、精确、准确,而大数据技术则往往提供一...
分类:
其他好文 时间:
2014-05-23 00:25:05
阅读次数:
285
接到阿里电话说实习和竞赛智能二选一, 真伤心, 在实习前发挥余热吧.
总结一下在ODPS下 编写map / reduce 和进行购买预测的过程.
首先这里的hadoop输入输出都是表的形式, 我们需要一张输入表和一张输出表.
输入表为 提供的 t_alibaba_bigdata_user_brand_total_1 输出表为自定义的wc_out
w...
分类:
其他好文 时间:
2014-05-09 02:33:28
阅读次数:
418