标签:log 程序 统计 文件中 art 准备 文件 测试 output
1:原始数据准备
统计用户的登录次数:
源数据login_log.txt如下:
7whygb5m@linshiyouxiang.net
nuahvuhuoia@qq.com
uashkufawuk@163.com
wafwqfqw@gmail.com
iuhukawhfuk@sina.com
wfkwbfkuw@tom.com
iuqwhfuihuqiw@yahoo.com
hiuwqhuiryquiw545@yahoo.com
2:应用程序准备
集群目录:
$HADOOP_HOME/share/hadoop/mapreduce/中找到程序包:
hadoop-mapreduce-examples-2.6.4.jar
该程序包提供了一些测试模块:
wordcount //对输入文件中的单词进行词频统计
pi //估算圆周率pi的值
wordmean //计算输入文件中单词的平均长度
3:提交任务指令解析
hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.4.jar
wordcount /user/root/login_log.txt /user/root/output
说明:
wordcount //指定程序包的主类
/user/root/login_log.txt //hdfs上需要计算的源文件
/user/root/output //hdfs上输出文件的目录
4:查看输出结果
在/user/root/output目录下有两个文件:
_SUCCESS //这是标识文件,表示这个任务执行完成
part-r-00000 //完成任务后产生的结果文件
输出前5行:
hadoop fs -cat /user/root/output/part-r-00000 | head -n 5
5:查看集群的资源管理情况
https://master:18088
查看计算资源的使用情况
查看mapreduce的任务列表
查看具体作业的详细信息
标签:log 程序 统计 文件中 art 准备 文件 测试 output
原文地址:https://www.cnblogs.com/hemomo/p/12271518.html