本文主要介绍了在Hadoop平台下统计分析Web用户的访问偏好,项目流程如下图所示:
数据采集
项目流程中,提取用户访问页面的URL和URL对应的正文内容,由本人在公司参与一起开发的爬虫系统爬取相应门户网站(新浪)上的数据。爬虫核心代码见我的另一篇文章:httpclient使用详解(爬虫)
爬虫的框架使用的是java多线程开发,由于数据时效性不是很强,所以并没有...
分类:
其他好文 时间:
2016-04-05 17:45:02
阅读次数:
430
本文主要使用的是grep,awk,cut等工具来对nginx日志进行统计和分析,具体如下:1,列出当天访问最多次数的ip地址cut-d--f1/usr/local/nginx/logs/20160329/access_2016032913.log|uniq-c|sort-rn|head-20[root@httpservera20160329]#cut-d--f1/usr/local/nginx/logs/20160329/ac..
分类:
其他好文 时间:
2016-03-29 16:47:08
阅读次数:
198
1、R语言的简介R语言(r-project)是主要用于统计分析、绘图的语言和操作环境。2、配置yum源2.1、安装说明由于编译安装相对繁琐,故而安装使用repoforge的源解决,免去编译的麻烦。2.2、安装rpmforge源yumhttp://pkgs.repoforge.org/rpmforge-release/rpmforge-release-0.5.3-1.e..
分类:
编程语言 时间:
2016-03-24 14:53:52
阅读次数:
225
提供的服务包括:1. 根据用户提供的IP地址,快速查询出该IP地址所在的地理信息和地理相关的信息,包括国家、省、市和运营商。2. 用户可以根据自己所在的位置和使用的IP地址更新我们的服务内容。 优势: 1. 提供国家、省、市、县、运营商全方位信息,信息维度广,格式规范。2. 提供完善的统计分析报表,
公司it运维从以下几大方面进行把控即:成本控制网站架构设计和优化批量部署批量管理监控预警流量统计日志统计分析自动化智能化具体体现为运维三大层面:运维制度、运维规范、运维流程!
分类:
其他好文 时间:
2016-03-17 19:56:41
阅读次数:
246
http://itindex.net/blog/2015/01/09/1420751820000.html WEKA:WEKA是一个可用于数据挖掘任务的机器学习算法集合。该算法可以直接应用到数据集或从自己的Java代码调用。 WEKA包含数据预处理,分类,回归,聚类,关联规则,和可视化工具。
分类:
编程语言 时间:
2016-03-15 06:20:02
阅读次数:
277
前言: 我们小组做的项目是“诗词大闯关”,初步计划为游戏主要内容为:根据界面场景内容猜诗词名,诗词内容。 为了更深入的了解市场人民的需求,我们小组决定制作调查问卷来统计分析玩家对我们项目的关注点以及获取更多人的需求,在短短几天的时间内得到了122份有效的调查问卷。 1.首先我们统计被调查者的年龄段
分类:
其他好文 时间:
2016-03-11 22:06:11
阅读次数:
174
R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。
分类:
编程语言 时间:
2016-03-11 11:34:46
阅读次数:
273
Range 按数值类型的字段聚合统计 { "query": { "match_all": {} }, "aggs": { "terms_sc-status": { "range": { "field": "time-taken", "ranges": [ { "key": "small", "to"
分类:
其他好文 时间:
2016-03-10 10:36:11
阅读次数:
135