标签:
网站日志分析项目案例(二)数据清洗 一、数据情况分析 1.1 数据情况回顾 该论坛数据有两部分: (1)历史数据约56GB,统计到2012-05-29。这也说明,在2012-05-29之前,日志文件都在一个文件里边,采用了追加写入的方式。 (2)自2013-05-30起,每天生成一个数据文件,约150MB左右。这也说明,从2013-05-30之后,日志文件不再是在一个文件里边。 图1展示了该日志数据的记录格式,其中每行记录有5部分组成:访问者IP、访问时间、访问资源、访问状态(HTTP状态码)、本次访问流量。 log 图1 日志记录数据格式 本次使用数据来自于两个2013年的日志文件,分别为access_2013_05_30.log与access_2013_05_31.log,下载地址为:http://pan.baidu.com/s/1pJE7XR9 1.2 要清理的数据 (1)根据前一篇的关键指标的分析,我们所要统计分析的均不涉及到访问状态(HTTP状态码)以及本次访问的流量,于是我们首先可以将这两项记录清理掉; (2)根据日志记录的数据格式,我们需要将日期格式转换为平常所见的普通格式如20150426这种,于是我们可以写一个类将日志记录的日期进行转换; (3)由于静态资源的访问请求对我们的数据分析没有意义,于是我们可以将"GET /staticsource/"开头的访问记录过滤掉,又因为GET和POST字符串对我们也没有意义,因此也可以将其省略掉; 二、数据清洗过程 2.1 定期上传日志至HDFS 首先,把日志数据上传到HDFS中进行处理,可以分为以下几种情况: (1)如果是日志服务器数据较小、压力较小,可以直接使用shell命令把数据上传到HDFS中; (2)如果是日志服务器数据较大、压力较大,使用NFS在另一台服务器上上传数据; (3)如果日志服务器非常多、数据量大,使用flume进行数据处理; 这里我们的实验数据文件较小,因此直接采用第一种Shell命令方式。又因为日志文件时每天产生的,因此需要设置一个定时任务,在第二天的1点钟自动将前一天产生的log文件上传到HDFS的指定目录中。所以,我们通过shell脚本结合crontab创建一个定时任务techbbs_core.sh,内容如下: #!/bin/sh #step1.get yesterday format string yesterday=$(date --date=‘1 days ago‘ +%Y_%m_%d) #step2.upload logs to hdfs hadoop fs -put /usr/local/files/apache_logs/access_${yesterday}.log /project/techbbs/data 结合crontab设置为每天1点钟自动执行的定期任务:crontab -e,内容如下(其中1代表每天1:00,techbbs_core.sh为要执行的脚本文件): * 1 * * * techbbs_core.sh 验证方式:通过命令 crontab -l 可以查看已经设置的定时任务 2.2 编写MapReduce程序清理日志 (1)编写日志解析类对每行记录的五个组成部分进行单独的解析 复制代码 复制代码 static class LogParser { public static final SimpleDateFormat FORMAT = new SimpleDateFormat( "d/MMM/yyyy:HH:mm:ss", Locale.ENGLISH); public static final SimpleDateFormat dateformat1 = new SimpleDateFormat( "yyyyMMddHHmmss");/** * 解析英文时间字符串 * * @param string * @return * @throws ParseException */ private Date parseDateFormat(String string) { Date parse = null; try { parse = FORMAT.parse(string); } catch (ParseException e) { e.printStackTrace(); } return parse; } /** * 解析日志的行记录 * * @param line * @return 数组含有5个元素,分别是ip、时间、url、状态、流量 */ public String[] parse(String line) { String ip = parseIP(line); String time = parseTime(line); String url = parseURL(line); String status = parseStatus(line); String traffic = parseTraffic(line); return new String[] { ip, time, url, status, traffic }; } private String parseTraffic(String line) { final String trim = line.substring(line.lastIndexOf("\"") + 1) .trim(); String traffic = trim.split(" ")[1]; return traffic; } private String parseStatus(String line) { final String trim = line.substring(line.lastIndexOf("\"") + 1) .trim(); String status = trim.split(" ")[0]; return status; } private String parseURL(String line) { final int first = line.indexOf("\""); final int last = line.lastIndexOf("\""); String url = line.substring(first + 1, last); return url; } private String parseTime(String line) { final int first = line.indexOf("["); final int last = line.indexOf("+0800]"); String time = line.substring(first + 1, last).trim(); Date date = parseDateFormat(time); return dateformat1.format(date); } private String parseIP(String line) { String ip = line.split("- -")[0].trim(); return ip; } } 复制代码 复制代码 (2)编写MapReduce程序对指定日志文件的所有记录进行过滤 Mapper类: 复制代码 复制代码 static class MyMapper extends Mapper<LongWritable, Text, LongWritable, Text> { LogParser logParser = new LogParser(); Text outputValue = new Text(); protected void map( LongWritable key, Text value, org.apache.hadoop.mapreduce.Mapper<LongWritable, Text, LongWritable, Text>.Context context) throws java.io.IOException, InterruptedException { final String[] parsed = logParser.parse(value.toString()); // step1.过滤掉静态资源访问请求 if (parsed[2].startsWith("GET /static/") || parsed[2].startsWith("GET /uc_server")) { return; } // step2.过滤掉开头的指定字符串 if (parsed[2].startsWith("GET /")) { parsed[2] = parsed[2].substring("GET /".length()); } else if (parsed[2].startsWith("POST /")) { parsed[2] = parsed[2].substring("POST /".length()); } // step3.过滤掉结尾的特定字符串 if (parsed[2].endsWith(" HTTP/1.1")) { parsed[2] = parsed[2].substring(0, parsed[2].length() - " HTTP/1.1".length()); } // step4.只写入前三个记录类型项 outputValue.set(parsed[0] + "\t" + parsed[1] + "\t" + parsed[2]); context.write(key, outputValue); } } 复制代码 复制代码 Reducer类: 复制代码 复制代码 static class MyReducer extends Reducer<LongWritable, Text, Text, NullWritable> { protected void reduce( LongWritable k2, java.lang.Iterable<Text> v2s, org.apache.hadoop.mapreduce.Reducer<LongWritable, Text, Text, NullWritable>.Context context) throws java.io.IOException, InterruptedException { for (Text v2 : v2s) { context.write(v2, NullWritable.get()); } }; } 复制代码 复制代码 (3)LogCleanJob.java的完整示例代码 View Code (4)导出jar包,并将其上传至Linux服务器指定目录中 2.3 定期清理日志至HDFS 这里我们改写刚刚的定时任务脚本,将自动执行清理的MapReduce程序加入脚本中,内容如下: #!/bin/sh #step1.get yesterday format string yesterday=$(date --date=‘1 days ago‘ +%Y_%m_%d) #step2.upload logs to hdfs hadoop fs -put /usr/local/files/apache_logs/access_${yesterday}.log /project/techbbs/data #step3.clean log data hadoop jar /usr/local/files/apache_logs/mycleaner.jar /project/techbbs/data/access_${yesterday}.log /project/techbbs/cleaned/${yesterday} 这段脚本的意思就在于每天1点将日志文件上传到HDFS后,执行数据清理程序对已存入HDFS的日志文件进行过滤,并将过滤后的数据存入cleaned目录下。 2.4 定时任务测试 (1)因为两个日志文件是2013年的,因此这里将其名称改为2015年当天以及前一天的,以便这里能够测试通过。 (2)执行命令:techbbs_core.sh 2014_04_26 控制台的输出信息如下所示,可以看到过滤后的记录减少了很多: 15/04/26 04:27:20 INFO input.FileInputFormat: Total input paths to process : 1 15/04/26 04:27:20 INFO util.NativeCodeLoader: Loaded the native-hadoop library 15/04/26 04:27:20 WARN snappy.LoadSnappy: Snappy native library not loaded 15/04/26 04:27:22 INFO mapred.JobClient: Running job: job_201504260249_0002 15/04/26 04:27:23 INFO mapred.JobClient: map 0% reduce 0% 15/04/26 04:28:01 INFO mapred.JobClient: map 29% reduce 0% 15/04/26 04:28:07 INFO mapred.JobClient: map 42% reduce 0% 15/04/26 04:28:10 INFO mapred.JobClient: map 57% reduce 0% 15/04/26 04:28:13 INFO mapred.JobClient: map 74% reduce 0% 15/04/26 04:28:16 INFO mapred.JobClient: map 89% reduce 0% 15/04/26 04:28:19 INFO mapred.JobClient: map 100% reduce 0% 15/04/26 04:28:49 INFO mapred.JobClient: map 100% reduce 100% 15/04/26 04:28:50 INFO mapred.JobClient: Job complete: job_201504260249_0002 15/04/26 04:28:50 INFO mapred.JobClient: Counters: 29 15/04/26 04:28:50 INFO mapred.JobClient: Job Counters 15/04/26 04:28:50 INFO mapred.JobClient: Launched reduce tasks=1 15/04/26 04:28:50 INFO mapred.JobClient: SLOTS_MILLIS_MAPS=58296 15/04/26 04:28:50 INFO mapred.JobClient: Total time spent by all reduces waiting after reserving slots (ms)=0 15/04/26 04:28:50 INFO mapred.JobClient: Total time spent by all maps waiting after reserving slots (ms)=0 15/04/26 04:28:50 INFO mapred.JobClient: Launched map tasks=1 15/04/26 04:28:50 INFO mapred.JobClient: Data-local map tasks=1 15/04/26 04:28:50 INFO mapred.JobClient:SLOTS_MILLIS_REDUCES=25238 15/04/26 04:28:50 INFO mapred.JobClient: File Output Format Counters 15/04/26 04:28:50 INFO mapred.JobClient: Bytes Written=12794925 15/04/26 04:28:50 INFO mapred.JobClient: FileSystemCounters 15/04/26 04:28:50 INFO mapred.JobClient: FILE_BYTES_READ=14503530 15/04/26 04:28:50 INFO mapred.JobClient: HDFS_BYTES_READ=61084325 15/04/26 04:28:50 INFO mapred.JobClient: FILE_BYTES_WRITTEN=29111500 15/04/26 04:28:50 INFO mapred.JobClient: HDFS_BYTES_WRITTEN=12794925 15/04/26 04:28:50 INFO mapred.JobClient: File Input Format Counters 15/04/26 04:28:50 INFO mapred.JobClient: Bytes Read=61084192 15/04/26 04:28:50 INFO mapred.JobClient: Map-Reduce Framework 15/04/26 04:28:50 INFO mapred.JobClient: Map output materialized bytes=14503530 15/04/26 04:28:50 INFO mapred.JobClient: Map input records=548160 15/04/26 04:28:50 INFO mapred.JobClient: Reduce shuffle bytes=14503530 15/04/26 04:28:50 INFO mapred.JobClient: Spilled Records=339714 15/04/26 04:28:50 INFO mapred.JobClient: Map output bytes=14158741 15/04/26 04:28:50 INFO mapred.JobClient: CPU time spent (ms)=21200 15/04/26 04:28:50 INFO mapred.JobClient: Total committed heap usage (bytes)=229003264 15/04/26 04:28:50 INFO mapred.JobClient: Combine input records=0 15/04/26 04:28:50 INFO mapred.JobClient: SPLIT_RAW_BYTES=133 15/04/26 04:28:50 INFO mapred.JobClient: Reduce input records=169857 15/04/26 04:28:50 INFO mapred.JobClient: Reduce input groups=169857 15/04/26 04:28:50 INFO mapred.JobClient: Combine output records=0 15/04/26 04:28:50 INFO mapred.JobClient: Physical memory (bytes) snapshot=154001408 15/04/26 04:28:50 INFO mapred.JobClient: Reduce output records=169857 15/04/26 04:28:50 INFO mapred.JobClient: Virtual memory (bytes) snapshot=689442816 15/04/26 04:28:50 INFO mapred.JobClient: Map output records=169857 Clean process success! (3)通过Web接口查看HDFS中的日志数据: 存入的未过滤的日志数据:/project/techbbs/data/ 存入的已过滤的日志数据:/project/techbbs/cleaned/
网站日志分析项目案例(二)数据清洗(MiniMapreduce)
标签:
原文地址:http://www.cnblogs.com/zhangwentong/p/5747934.html