标签:
语法形式
awk [options] 'script' var=value file(s) awk [options] -f scriptfile var=value file(s)
常用命令选项
模式:
awk 'BEGIN{ print "start" } pattern{ commands } END{ print "end" }' file
一个awk脚本通常由:BEGIN语句块、能够使用模式匹配的通用语句块、END语句块3部分组成,这三个部分是可选的。任意一个部分都可以不出现在脚本中,脚本通常是被单引号或双引号中,例如:
awk 'BEGIN{ i=0 } { i++ } END{ print i }' filename awk "BEGIN{ i=0 } { i++ } END{ print i }" filename
awk 'BEGIN{ commands } pattern{ commands } END{ commands }'
第一步:执行BEGIN{ commands }语句块中的语句;
第二步:从文件或标准输入(stdin)读取一行,然后执行pattern{ commands }语句块,它逐行扫描文件,从第一行到最后一行重复这个过程,直到文件全部被读取完毕。
第三步:当读至输入流末尾时,执行END{ commands }语句块。
BEGIN语句块在awk开始从输入流中读取行之前被执行,这是一个可选的语句块,比如变量初始化、打印输出表格的表头等语句通常可以写在BEGIN语句块中。
END语句块在awk从输入流中读取完所有的行之后即被执行,比如打印所有行的分析结果这类信息汇总都是在END语句块中完成,它也是一个可选语句块。
pattern语句块中的通用命令是最重要的部分,它也是可选的。如果没有提供pattern语句块,则默认执行{ print },即打印每一个读取到的行,awk读取的每一行都会执行该语句块。
示例
echo -e "A line 1\nA line 2" | awk 'BEGIN{ print "Start" } { print } END{ print "End" }'
打印结果:
Start A line 1 A line 2 End
当使用不带参数的print时,它就打印当前行,当print的参数是以逗号进行分隔时,打印时则以空格作为定界符。在awk的print语句块中双引号是被当作拼接符使用,例如:
echo | awk '{ var1="v1"; var2="v2"; var3="v3"; print var1,var2,var3; }'
打印结果:
v1 v2 v3
双引号拼接使用:
echo | awk '{ var1="v1"; var2="v2"; var3="v3"; print var1"="var2"="var3; }'打印结果:
v1=v2=v3
{ }类似一个循环体,会对文件中的每一行进行迭代,通常变量初始化语句(如:i=0)以及打印文件头部的语句放入BEGIN语句块中,将打印的结果等语句放在END语句块中。
说明:[A][N][P][G]表示第一个支持变量的工具,[A]=awk、[N]=nawk、[P]=POSIXawk、[G]=gawk
$n 当前记录的第n个字段,比如n为1表示第一个字段,n为2表示第二个字段。 $0 这个变量包含执行过程中当前行的文本内容。 [N] ARGC 命令行参数的数目。 [G] ARGIND 命令行中当前文件的位置(从0开始算)。 [N] ARGV 包含命令行参数的数组。 [G] CONVFMT 数字转换格式(默认值为%.6g)。 [P] ENVIRON 环境变量关联数组。 [N] ERRNO 最后一个系统错误的描述。 [G] FIELDWIDTHS 字段宽度列表(用空格键分隔)。 [A] FILENAME 当前输入文件的名。 [P] FNR 同NR,但相对于当前文件。 [A] FS 字段分隔符(默认是任何空格)。 [G] IGNORECASE 如果为真,则进行忽略大小写的匹配。 [A] NF 表示字段数,在执行过程中对应于当前的字段数。 [A] NR 表示记录数,在执行过程中对应于当前的行号。 [A] OFMT 数字的输出格式(默认值是%.6g)。 [A] OFS 输出字段分隔符(默认值是一个空格)。 [A] ORS 输出记录分隔符(默认值是一个换行符)。 [A] RS 记录分隔符(默认是一个换行符)。 [N] RSTART 由match函数所匹配的字符串的第一个位置。 [N] RLENGTH 由match函数所匹配的字符串的长度。 [N] SUBSEP 数组下标分隔符(默认值是34)。
示例:
echo -e "line1 f2 f3\nline2 f4 f5\nline3 f6 f7" | awk '{print "Line No:"NR", No of fields:"NF, "$0="$0, "$1="$1, "$2="$2, "$3="$3}'打印结果:
Line No:1, No of fields:3 $0=line1 f2 f3 $1=line1 $2=f2 $3=f3 Line No:2, No of fields:3 $0=line2 f4 f5 $1=line2 $2=f4 $3=f5 Line No:3, No of fields:3 $0=line3 f6 f7 $1=line3 $2=f6 $3=f7
使用print $NF可以打印出一行中的最后一个字段,使用$(NF-1)则是打印倒数第二个字段,其他以此类推:
echo -e "line1 f2 f3\n line2 f4 f5" | awk '{print $NF}'打印结果:
f3 f5
echo -e "line1 f2 f3\n line2 f4 f5" | awk '{print $(NF-1)}'
打印结果:
f2 f4
打印每一行的第二和第三个字段:
awk '{ print $2,$3 }' filename
统计文件中的行数:
awk 'END{ print NR }' filename
以上命令只使用了END语句块,在读入每一行的时,awk会将NR更新为对应的行号,当到达最后一行NR的值就是最后一行的行号,所以END语句块中的NR就是文件的行数。
借助-v选项,可以将外部值(并非来自stdin)传递给awk:
VAR=10000 echo | awk -v VARIABLE=$VAR '{ print VARIABLE }'
另一种传递外部变量方法:
var1="aaa" var2="bbb" echo | awk '{ print v1,v2 }' v1=$var1 v2=$var2
当输入来自于文件时使用:
awk '{ print v1,v2 }' v1=$var1 v2=$var2 filename
以上方法中,变量之间用空格分隔作为awk的命令行参数跟随在BEGIN、{}和END语句块之后。
读取下一条记录
awk中next语句使用:在循环逐行匹配,如果遇到next,就会跳过当前行,直接忽略下面语句。而进行下一行匹配。net语句一般用于多行合并:
cat text.txt a b c d e
awk 'NR%2==1{next}{print NR,$0;}' text.txt 2 b 4 d
简单地读取一条记录
awk getline用法:输出重定向需用到getline函数。getline从标准输入、管道或者当前正在处理的文件之外的其他输入文件获得输入。它负责从输入获得下一行的内容,并给NF,NR和FNR等内建变量赋值。如果得到一条记录,getline函数返回1,如果到达文件的末尾就返回0,如果出现错误,例如打开文件失败,就返回-1。
示例:
执行linux的date命令,并通过管道输出给getline,然后再把输出赋值给自定义变量out,并打印它:
awk 'BEGIN{ "date" | getline out; print out }'
执行shell的date命令,并通过管道输出给getline,然后getline从管道中读取并将输入赋值给out,split函数把变量out转化成数组mon,然后打印数组mon的第二个元素:
awk 'BEGIN{ "date" | getline out; split(out,mon); print mon[2] }'
命令ls的输出传递给geline作为输入,循环使getline从ls的输出中读取一行,并把它打印到屏幕。这里没有输入文件,因为BEGIN块在打开输入文件前执行,所以可以忽略输入文件。
awk 'BEGIN{ while( "ls" | getline) print }'
关闭文件
awk中允许在程序中关闭一个输入或输出文件,方法是使用awk的close语句。
close("filename")
filename可以是getline打开的文件,也可以是stdin,包含文件名的变量或者getline使用的确切命令。或一个输出文件,可以是stdout,包含文件名的变量或使用管道的确切命令。
输出到一个文件
awk中允许用如下方式将结果输出到一个文件:
echo | awk '{printf("hello word!\n") > "datafile"}'
或
echo | awk '{printf("hello word!\n") >> "datafile"}'
设置字段定界符
默认的字段定界符是空格,可以使用-F "定界符" 明确指定一个定界符:
awk -F: '{ print $NF }' /etc/passwd
或
awk 'BEGIN{ FS=":" } { print $NF }' /etc/passwd
在BEGIN语句块中则可以用OFS=“定界符”设置输出字段的定界符。
在linux awk的while、do-while和for语句中允许使用break,continue语句来控制流程走向,也允许使用exit这样的语句来退出。break中断当前正在执行的循环并跳到循环外执行下一条语句。if 是流程选择用法。awk中,流程控制语句,语法结构,与c语言类型。有了这些语句,其实很多shell程序都可以交给awk,而且性能是非常快的。下面是各个语句用法。
条件判断语句
if(表达式) 语句1 else 语句2
格式中语句1可以是多个语句,为了方便判断和阅读,最好将多个语句用{}括起来。
awk分枝结构允许嵌套,其格式为:
if(表达式) {语句1} else if(表达式) {语句2} else {语句3}
示例:
awk 'BEGIN{ test=100; if(test>90){ print "very good"; } else if(test>60){ print "good"; } else{ print "no pass"; } }'
每条命令语句后面可以用;分号结尾。
循环语句
while语句:
while(表达式) {语句}
示例:
awk 'BEGIN{ test=100; total=0; while(i<=test){ total+=i; i++; } print total; }'
for循环
for循环有两种格式:
格式一:
for(变量 in 数组) {语句}
格式二:
for(变量;条件;表达式) {语句}
do循环
do {语句} while(条件)
示例:
awk 'BEGIN{ total=0; i=0; do {total+=i;i++;} while(i<=100) print total; }'
其他语句
数组是awk的灵魂,处理文本中最不能少的就是它的数组处理。因为数组索引(下标)可以是数字和字符串在awk中数组叫做关联数组(associative arrays)。awk 中的数组不必提前声明,也不必声明大小。数组元素用0或空字符串来初始化,这根据上下文而定。
数组的定义
数字做数组索引(下标):
Array[1]="sun" Array[2]="kai"
字符串做数组索引(下标):
Array["first"]="www" Array["last"]="name" Array["birth"]="1987"
读取数组的值
{ for(item in array) {print array[item]}; } #输出的顺序是随机的 { for(i=1;i<=len;i++) {print array[i]}; } #len是数组的长度
数组相关函数
得到数组长度:
awk 'BEGIN{info="it is a test";lens=split(info,tA," ");print length(tA),lens;}'
length返回字符串以及数组长度,split进行分割字符串为数组,也会返回分割得到数组长度。
awk 'BEGIN{info="it is a test";split(info,tA," ");print asort(tA);}'
asort对数组进行排序,返回数组长度。
输出数组内容(无序,有序输出):
awk 'BEGIN{info="it is a test";split(info,tA," ");for(k in tA){print k,tA[k];}}'
1 it 2 is 3 a 4 test注意:数组下标是从1开始,与C数组不一样。
判断键值存在以及删除键值:
awk 'BEGIN{tB["a"]="a1";tB["b"]="b1";if( "c" in tB){print "ok";};for(k in tB){print k,tB[k];}}'
a a1 b b1
#删除键值:
awk 'BEGIN{tB["a"]="a1";tB["b"]="b1";delete tB["a"];for(k in tB){print k,tB[k];}}'
b b1
查找字符串(index使用)
awk 'BEGIN{info="this is a test2010test!";print index(info,"test")?"ok":"no found";}'未找到,返回0
正则表达式匹配查找(match使用)
awk 'BEGIN{info="this is a test2010test!";print match(info,/[0-9]+/)?"ok":"no found";}'
截取字符串(substr使用)
awk 'BEGIN{info="this is a test2010test!";print substr(info,4,10);}'
从第 4个 字符开始,截取10个长度字符串
字符串分割(split使用)
awk 'BEGIN{info="this is a test";split(info,tA," ");print length(tA);for(k in tA){print k,tA[k];}}'
4 4 test 1 this 2 is 3 a分割info,动态创建数组tA,这里比较有意思,awk for …in循环,是一个无序的循环。 并不是从数组下标1…n ,因此使用时候需要注意。
打开外部文件(close用法)
awk 'BEGIN{while("cat /etc/passwd"|getline){print $0;};close("/etc/passwd");}'
逐行读取外部文件(getline使用方法)
awk 'BEGIN{while(getline < "/etc/passwd"){print $0;};close("/etc/passwd");}'
awk 'BEGIN{print "Enter your name:";getline name;print name;}'
调用外部应用程序(system使用方法)
awk 'BEGIN{b=system("ls -al");print b;}'
下面使用Linux中的Awk对tomcat中日志文件做一些分析,主要统计pv,uv等。
日志文名称:access_2013_05_30.log,大小57.7 MB 。
这次分析只是简单演示,所以不是太精确地处理数据。
日志地址:http://download.csdn.net/detail/u011204847/9496357
日志数据示例:
日志总行数:
打印的第七列数据为日志的URL:
扩展,
shell中的管道|
command 1 | command 2 #他的功能是把第一个命令command 1执行的结果作为command 2的输入传给command 2
wc -l #统计行数
uniq -c #在输出行前面加上每行在输入文件中出现的次数
uniq -u #仅显示不重复的行
sort -nr
head -3 #取前三名
数据清洗:
1、第一次清洗:去除URL中以/static/开头的URL
awk '($7 !~ /^\/static\//){print $0}' access_2013_05_30.log > clean_2013_05_30.log
去除前:
去除后:
2、第二次清洗:去除图片、css和js
awk '($7 !~ /\.jpg|\.png|\.jpeg|\.gif|\.css|\.js/) {print $0}' clean_2013_05_30.log > clean2_201 3_05_30.log
PV
pv是指网页访问次数
方法:统计所有数据的总行数
数据清洗:对原始数据中的干扰数据进行过滤
awk 'BEGIN{pv=0}{pv++}END{print "pv:"pv}' clean2_2013_05_30.log > pv_2013_05_30
UV
uv指的是访问人数,也就是独立IP数
对ip重复的数据进行去重,然后再统计所有行数
awk '{print $1}' clean2_2013_05_30.log |sort -n |uniq -u |wc -l > uv_2013_05_30
访问最多的IP(前10名)
对ip重复的数据进行去重的时候还要汇总,取前10名
awk '{print $1}' clean2_2013_05_30.log | sort -n | uniq -c |sort -nr -k 1|head -10 > top10_2013_05_30
访问前十的URL(可以用来分析网站哪个模块最受欢迎)
awk '{print $7}' clean2_2013_05_30.log | sort | uniq -c |sort -nr -k 1|head -10 > top10URL_2013_ 05_30
使用Java实现访问量前十的IP地址。
代码示例:
import java.io.*; import java.util.*; import java.util.regex.Matcher; import java.util.regex.Pattern; /** * Created by Chen on 2016/4/13. */ public class RegexTest { public static void main(String[] args) throws IOException { //日志格式:27.19.74.143 - - [30/May/2013:17:38:20 +0800] "GET /static/image/common/faq.gif HTTP/1.1" 200 1127 //需要解析的源文件 File file = new File("D:\\clean2_2013_05_30.log"); //高效字符读入流 BufferedReader bufr = new BufferedReader(new InputStreamReader(new FileInputStream(file))); String line = null; //建立TreeMap,Key为IP地址,Value为IP出现次数 Map<String, Integer> map = new TreeMap<>(); while ((line = bufr.readLine()) != null) { String ip = parseIP(line); map.put(ip, map.get(ip) == null ? 1 : map.get(ip) + 1); } Set<String> set = map.keySet(); //创建一个具有匿名比较器的TreeSet集合 :作用是让存入的元素先按照Key排序,相同则继续按照Value排序。 //这个TreeSet将用来存储IP地址和出现次数反转后的每个元素。 TreeSet<Map.Entry<Integer, String>> treeSet = new TreeSet<>(new Comparator<Map.Entry<Integer, String>>() { @Override public int compare(Map.Entry<Integer, String> o1, Map.Entry<Integer, String> o2) { int result = o1.getKey() - o2.getKey(); if (result == 0) { result = o1.getValue().compareTo(o2.getValue()); } return -result; } }); //把IP地址和出现次数反转,然后放入上面具有比较器的TreeSet中 for (Iterator<String> it = set.iterator(); it.hasNext(); ) { String ip = it.next(); Integer n = map.get(ip); treeSet.add(new AbstractMap.SimpleEntry(n, ip)); } //遍历并打印出现次数和IP地址(次数最多的前十个) int count = 0; Iterator<Map.Entry<Integer, String>> itr = treeSet.iterator(); while (itr.hasNext()) { if (count == 10) { break; } Map.Entry<Integer, String> en = itr.next(); int n = en.getKey(); System.out.println(n + "\t\t\t" + en.getValue()); count++; } } //解析IP地址 public static String parseIP(String str) { Pattern compile = Pattern.compile("[0-9]+(\\.[0-9]+){3}"); //解析IP地址 Matcher matcher = compile.matcher(str); String group = ""; if (matcher.find()) { group = matcher.group(); } return group; } }
标签:
原文地址:http://blog.csdn.net/u011204847/article/details/51205031