码迷,mamicode.com
首页 > 系统相关 > 详细

Eclipse上运行第一个Hadoop实例 - WordCount(单词统计程序)

时间:2014-12-09 12:10:39      阅读:222      评论:0      收藏:0      [点我收藏+]

标签:style   blog   http   io   ar   color   os   使用   sp   

需求

  计算出文件中每个单词的频数。要求输出结果按照单词的字母顺序进行排序。每个单词和其频数占一行,单词和频数之间有间隔。

  比如,输入一个文件,其内容如下:

  hello world

  hello hadoop

  hello mapreduce

  对应上面给出的输入样例,其输出样例为:

  hadoop 1

  hello 3

  mapreduce 1

  world 1

方案制定

  对该案例,可设计出如下的MapReduce方案:

  1. Map阶段各节点完成由输入数据到单词切分的工作

  2. shuffle阶段完成相同单词的聚集再到分发到各个Reduce节点的工作 (shuffle阶段是MapReduce的默认过程)

  3. Reduce阶段负责接收所有单词并计算各自频数

小结

  WordCount是一个很经典的Hadoop示例,它虽然简单,但具有很大的代表性。

  从某个程度上来说也反映了其设计的初衷,对日志文件的分析。

Eclipse上运行第一个Hadoop实例 - WordCount(单词统计程序)

标签:style   blog   http   io   ar   color   os   使用   sp   

原文地址:http://www.cnblogs.com/scut-fm/p/4062786.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!