码迷,mamicode.com
首页 > 其他好文 > 详细

大数据基础之词频统计Word Count

时间:2018-12-13 19:30:31      阅读:132      评论:0      收藏:0      [点我收藏+]

标签:foreach   examples   spl   contex   log   mapreduce   head   style   基础   

对文件进行词频统计,是一个大数据领域的hello word级别的应用,来看下实现有多简单:

1 Linux单机处理

egrep -o "\b[[:alpha:]]+\b" test_word.log|sort|uniq -c|sort -rn|head -10

2 Spark分布式处理(Scala优雅简洁)

val sparkConf = new SparkConf()
val sc = new SparkContext(sparkConf)
sc.textFile("test_word.log").flatMap(_.split("\\s+")).map((_, 1)).reduceByKey(_ + _).sortBy(_._2, false).take(10).foreach(println)

3 Hadoop示例

hadoop jar /path/hadoop-2.6.1/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.1.jar wordcount /tmp/wordcount/input /tmp/wordcount/output 

 

附:测试文件test_word.log内容如下:

hello world
hello www

输出如下:

2 hello
1 world
1 www

 

大数据基础之词频统计Word Count

标签:foreach   examples   spl   contex   log   mapreduce   head   style   基础   

原文地址:https://www.cnblogs.com/barneywill/p/10115301.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!