码迷,mamicode.com
首页 > 其他好文 > 详细

利用Hadoop streaming 进行词频统计

时间:2019-05-10 16:16:13      阅读:101      评论:0      收藏:0      [点我收藏+]

标签:put   usr   app   bin   art   har   bsp   jar   output   

创建一个文件夹

bin/hdfs dfs -mkdir /input

将要统计的文件上传到hadoop
bin/hadoop fs -put /test.txt /input

利用hadoop进行词频统计
bin/hadoop jar share/hadoop/tools/lib/Hadoop-streaming-2-9-2.jar –input /test.txt –output /user/results.txt –mapper /bin/cat -reducer /usr/bin/wc

删除results.txt文件

./bin/hadoop dfs -rmr /user/results.txt

查看results.txt文件目录

bin/hadoop dfs -ls /user/results.txt

查看统计结果

bin/hadoop dfs -ls /user/results.txt/part-0000

 

利用Hadoop streaming 进行词频统计

标签:put   usr   app   bin   art   har   bsp   jar   output   

原文地址:https://www.cnblogs.com/BigWatermelon/p/10844953.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!