1、数据去重 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。1.1 实例描述 对数据文件中的数据进行去重。数据文件中的每行都是一个数据。.....
分类:
其他好文 时间:
2015-06-26 20:59:01
阅读次数:
125
数据去重主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。
package com.hadoop.mr;
import java.io.IOException;
import org.apache.hadoop.conf.Config...
分类:
其他好文 时间:
2015-06-18 17:25:05
阅读次数:
83
GoAccess是一款开源的网站日志实时分析工具。GoAccess的工作方式很容易理解,就是读取和解析Apache/Nginx/Lighttpd的访问日志文件accesslog,然后以更友好的方式把统计信息显示出来。统计的内容包括:访问概况、动态页面请求、静态页面请求(如图片、样式表、脚本等)、访客排..
分类:
数据库 时间:
2015-05-07 17:04:55
阅读次数:
260
网站日志分析项目案例(一)项目介绍:http://www.cnblogs.com/edisonchou/p/4449082.html网站日志分析项目案例(二)数据清洗:http://www.cnblogs.com/edisonchou/p/4458219.html网站日志分析项目案例(三)统计分析:...
分类:
Web程序 时间:
2015-04-29 07:05:09
阅读次数:
195
网站日志分析项目案例(一)项目介绍:http://www.cnblogs.com/edisonchou/p/4449082.html网站日志分析项目案例(二)数据清洗:http://www.cnblogs.com/edisonchou/p/4458219.html一、数据情况分析1.1 数据情况回顾...
分类:
Web程序 时间:
2015-04-26 21:11:50
阅读次数:
202
一、项目背景与数据情况1.1 项目来源 本次要实践的数据日志来源于国内某知名的技术学习论坛,该论坛由某培训学校主办,汇聚了众多技术学习者,每天都有人发帖、回帖,如图1所示。图1 项目来源网站-技术学习论坛 本次实践的目的就在于通过对该技术论坛的apache common日志进行分析,计算该论坛的.....
分类:
Web程序 时间:
2015-04-23 01:59:45
阅读次数:
216
如果你是一个站长,可能你也大概知道网站日志文件,也清楚网站原始访问日志文件中每一行记录到底记录了一些什么东西,但是如果叫你直接看这些杂乱的日志,相信你会很抓狂的,所以我们需要找一款专业又好上手的网站日志分析工具来辅助我们日常的原始日志分析工作。
分类:
Web程序 时间:
2015-04-20 18:26:17
阅读次数:
203
相信大家都在自己的网站上安装了网站统计的代码,如Google analytics、量子统计、百度统计、cnzz、51.la等,这些工具可以统计网站的流量,也就是网站上访客可以看到的所有页面的访问量,但是这些统计工具都不能统计你主机上资源的原始访问信息,例如某个图片被谁下载了,也不能统计到那些没有添加...
分类:
Web程序 时间:
2015-04-15 19:24:05
阅读次数:
238
问题一:怎么在海量数据中找出重复次数最多的一个算法思想:方案1:先做hash,然后求模映射为小文件,求出每个小文件中重复次数最多的一个,并记录重复次数。 然后找出上一步求出的数据中重复次数最多的一个就是所求(如下)。问题二: 网站日志中记录了用户的IP,找出访问次数最多的IP。算法思想: ...
分类:
其他好文 时间:
2015-04-04 12:04:09
阅读次数:
199
0.上传日志文件到linux中,通过flume将文件收集到hdfs中。
执行命令/home/cloud/flume/bin/flume-ng agent -n a4 -c conf -f /home/cloud/flume/conf/a4.conf -Dflume.root.logger=DEBUG,console
1.建立hive表
create external table bb...
分类:
Web程序 时间:
2015-03-28 08:51:36
阅读次数:
156