在网站日志中,我们经常会看到很多返回的http代码,如201、304、404、500等等。可是这些具体的返回的HTTP代码究竟什么含义呢,在此做一下知识普及吧,记不住不要紧,到时候看看就行了,但最主要的几个还要要清楚的。 一些常见的状态码为: 200 - 服务器成功返回网页 404 - 请求的网页不 ...
分类:
Web程序 时间:
2017-07-11 17:52:48
阅读次数:
181
通常网站日志采集的数据是不规则的,同时也包含了许多无用的日志。当需要分析一些核心指标来满足系统业务决策的时候,对日志的数据清洗在所难免,楼主本篇将介绍如何使用mapreduce程序对日志数据进行清洗,将清洗后的结构化数据存储到hive,并进行相关指标的提取。 ...
分类:
Web程序 时间:
2017-05-21 13:55:57
阅读次数:
271
MYSQL数据库适用场景广泛,相较于Oracle、DB2性价比更高,Web网站、日志系统、数据仓库等场景都有MYSQL用武之地,但是也存在对于事务性支持不太好(MySQL 5.5版本开始默认引擎才是InnoDB事务型)、存在多个分支、读写效率瓶颈等问题,所以如何用好MySQL变得至关重要。那么如何用... ...
分类:
数据库 时间:
2017-03-13 18:43:32
阅读次数:
220
在网站日志中,我们经常会看到很多返回的http代码,如201、304、404、500等等。可是这些具体的返回的HTTP代码究竟什么含义呢,在此做一下知识普及吧,记不住不要紧,到时候看看就行了,但最主要的几个还要要清楚的。 一些常见的状态码为: 200 - 服务器成功返回网页 404 - 请求的网页不 ...
分类:
Web程序 时间:
2017-03-05 12:19:59
阅读次数:
238
public class ObjectOutTest { ///* 将对象写入文件方法 */ //public void write(Object o, String path) { // try { // /* 创建存取文件 */ // FileOutputStream fileStream = ...
分类:
Web程序 时间:
2017-02-28 11:32:48
阅读次数:
167
转自:Shell判断字符串包含关系的几种方法 现在每次分析网站日志的时候都需要判断百度蜘蛛是不是真实的蜘蛛,nslookup之后需要判断结果中是否包含“baidu”字符串 以下给出一些shell中判断字符串包含的方法,来源程序员问答网站 stackoverflow 以及segmentfault。 方 ...
分类:
系统相关 时间:
2017-01-14 23:14:40
阅读次数:
362
一、Awstats简介Awstats是一个免费非常简洁而且强大有个性的网站日志分析工具。它可以统计您站点的如下信息:一:访问量,访问次数,页面浏览量,点击数,数据流量等二:精确到每月、每日、每小时的数据三:访问者国家四:访问者IP五:Robots/Spiders的统计六:访客持续时间七:对不同Fil ...
分类:
其他好文 时间:
2017-01-14 14:41:18
阅读次数:
232
用yum安装的nginx的日志默认安装在路径:/var/log/nginxnginx配置文件:/etc/nginx/nginx.conf (总配置文件)/etc/nginx/conf.d/default.conf (网站级别的配置文件)如果要使用nginx默认配置的日志格式,并改变日志的存储位置,可 ...
分类:
Web程序 时间:
2017-01-08 15:11:40
阅读次数:
277
使用Nginx和Logstash以及kafka来实现网站日志采集的详细步骤和过程 环境介绍: linux虚拟机3台,主机名分别为hadoop01、hadoop02和hadoop03; 在这3台虚拟机上分别部署了3个Zookeeper,这里Zookeeper的具体安装步骤不做介绍; 在这3台虚拟机上分... ...
分类:
Web程序 时间:
2017-01-01 10:58:15
阅读次数:
1766
网站的日志文件随着每天的访问记录积累,会越来越大,特别是大型网站。日志越来越大不仅影响储存容量从而影响网站性能,而且对我们做日志分析造成困难。因此,我要对日志进行规范整理。方法一:使用rotatelogs实现log轮转rotatelogs是一个配合Apache管道日志功能使用的简单程序..
分类:
Web程序 时间:
2016-12-09 01:23:07
阅读次数:
242