首页 > 其他好文 > 详细

用Hive分析nginx日志

时间：2016-01-31 21:26:40 阅读：335 评论：0 收藏：0 [点我收藏+]

标签：

这里用到的nginx日志是网站的访问日志，比如：

[java] view plain copy

180.173.250.74 - - [08/Jan/2015:12:38:08 +0800] "GET /avatar/xxx.png HTTP/1.1" 200 968
"http://www.iteblog.com/archives/994"
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)
Chrome/34.0.1847.131 Safari/537.36"

这条日志里面含有9列(为了展示的美观，我在这里面加了换行符)，每列之间是用空格分割的，每列的含义分别是客户端访问IP、用户标示、用户、访问时间、请求页面、请求状态、返回文件的大小、跳转来源、浏览器UA。如果想用一般的方法解析这条日志的话有点困难。但是如果我们会正则表达式的话，去匹配这九列数据还是很简单的：

[java] view plain copy

([^ ]*) ([^ ]*) ([^ ]*) ( $. *$

这样一来就可以匹配出每一列的值。而在Hive中我们是可以指定输入文件解析器(SerDe)的，并且在Hive中内置了一个org.apache.hadoop.hive.contrib.serde2.RegexSerDe正则解析器，我们可以直接使用它。所以整个建表语句可以这么写：

[java] view plain copy

CREATE TABLE logs(
host STRING,
identity STRING,
user STRING,
time STRING,
request STRING,
status STRING,
size STRING,
referer STRING,
agent STRING)
ROW FORMAT SERDE ‘org.apache.hadoop.hive.contrib.serde2.RegexSerDe‘
WITH SERDEPROPERTIES (
"input.regex" = "([^ ]*) ([^ ]*) ([^ ]*) (\\[.*\\]) (\".*?\") (-|[0-9]*)
(-|[0-9]*) (\".*?\") (\".*?\")",
"output.format.string" = "%1$s %2$s %3$s %4$s %5$s %6$s %7$s %8$s %9$s"
)
STORED AS TEXTFILE;

将日志放置到这个表的目录下，gz格式和未知压缩格式都可以直接被Hive解析。用下面语句可以查询出每小时访问量超过20的IP：

[java] view plain copy

hive> select substring(time, 2, 14) date ,host, count(*) as count
from logs
group by substring(time, 2, 14), host
having count > 20
sort by date, count;
29/Dec/2014:00 47.18.236.106 24
29/Dec/2014:02 81.215.34.45 70
29/Dec/2014:04 66.249.64.18 23
29/Dec/2014:04 66.249.64.22 24
29/Dec/2014:09 119.145.14.213 44
29/Dec/2014:09 113.90.78.63 52
29/Dec/2014:10 106.39.255.133 26
29/Dec/2014:10 211.99.9.68 30
29/Dec/2014:10 60.10.71.97 33
29/Dec/2014:10 222.128.29.21 76
29/Dec/2014:11 91.237.69.17 56
29/Dec/2014:11 211.151.238.52 144
29/Dec/2014:12 222.92.189.35 26
29/Dec/2014:12 218.85.130.110 31
29/Dec/2014:12 218.4.189.13 77
29/Dec/2014:13 61.57.231.254 30
29/Dec/2014:13 124.207.11.123 33
29/Dec/2014:14 134.134.139.76 22
29/Dec/2014:14 218.15.33.28 27
29/Dec/2014:14 218.247.17.100 67
29/Dec/2014:15 116.235.244.139 31
29/Dec/2014:15 101.231.119.202 52
29/Dec/2014:15 183.11.249.158 64
29/Dec/2014:16 116.235.244.139 22
29/Dec/2014:16 211.151.238.52 30
29/Dec/2014:16 123.138.184.84 53
29/Dec/2014:17 219.159.77.110 55
29/Dec/2014:17 87.204.102.195 57
29/Dec/2014:17 111.203.3.1 77
29/Dec/2014:18 125.41.147.243 21
29/Dec/2014:18 66.249.64.18 23
29/Dec/2014:18 101.251.230.3 39
29/Dec/2014:18 110.249.70.182 40
29/Dec/2014:18 91.200.12.26 44
29/Dec/2014:18 218.64.17.230 93
29/Dec/2014:19 66.249.64.22 27
29/Dec/2014:21 222.129.35.102 25

或者是一些其他的操作。

如果你对Bash比较熟悉的话，那你完全可以不用到Hive，直接用awk、sort等函数来实现，比如我想知道今天访问量比较多的IP并对他们进行排序，取前10条的语句可以这么写：

[java] view plain copy

[root@iteblog ]# awk ‘{print $1}‘ www.iteblog.com.access.log | sort | uniq -c |
> sort -nr | head -n 10
241 46.119.121.149
224 66.249.65.51
220 66.249.65.49
219 66.249.65.47
210 211.151.238.52
184 207.46.13.96
183 157.55.39.44
182 112.247.104.147
173 157.55.39.239
169 157.55.39.106

用Hive分析nginx日志

标签：

原文地址：http://www.cnblogs.com/thinkpad/p/5173673.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

更多

友情链接

兰亭集智国之画百度统计站长统计阿里云 chrome插件新版天听网

关于我们 - 联系我们 - 留言反馈

© 2014 mamicode.com 版权所有联系我们:gaon5@hotmail.com

迷上了代码！