码迷,mamicode.com
首页 > 编程语言 > 详细

java mapreduce实现网站PV分析

时间:2020-03-20 00:55:17      阅读:88      评论:0      收藏:0      [点我收藏+]

标签:成功   执行   hdf   pom   bsp   基本结构   文件   程序   代码   

原文链接:

https://www.toutiao.com/i6765677128022229517/

 

PV 是Page Views的缩写,即页面浏览量,用户每一次对网站中的每个网页访问均被记录一次。注意,访客每刷新一次页面,pv就增加一次。

我们目前的数据是:

 

其中的数据我们会得到标注

 

根据标注我们进行代码筛选,编写MapReduce

分析:我们先根据标注的表中有一个“省份”的字段,依据“省份”编写map。

首先我们创建Maven项目

 

填写pom信息

 

 

 

创建Map类

 

基本结构如下:

 

我们需要对原数据进行筛选

长度筛选

 

省份编号是空值

 

确保数字编号是否是数字

 

筛选URL是否为空值

 

创建Reduce类

 

编写内容

 

创建运行类

 

编写程序内容

 

准备数据源文件和Jar包

 

启动Hadoop

 

我们将数据上传到HDFS中

 

我们查看下数据,发现数据已经上传了

 

我们执行我们的jar包

yarn jar /data/webpv/webpv.jar com.xlglvc.xxx.mapredece.webpv.WebPvDriver /webpv/data1 /webpvoutput

 

执行成功

 

我们查看生成的数据,已经生成了,我们查看下最终数据

 

这样我们就知道每个省份最终访问的次数了,了解到那个省份访问的最多了

 

java mapreduce实现网站PV分析

标签:成功   执行   hdf   pom   bsp   基本结构   文件   程序   代码   

原文地址:https://www.cnblogs.com/bqwzy/p/12528472.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!