awk学习（一）

时间：2018-09-26 10:48:26 阅读：140 评论：0 收藏：0 [点我收藏+]

awk介绍

awk：Aho, Weinberger, Kernighan，报告生成器，格式化文本输出
有多种版本：New awk（nawk），GNU awk（ gawk），一般我们用的就是gawk
gawk：模式扫描和处理语言

基本语法

awk [options] ‘program’ var=value file…
awk [options] -f programfile var=value file…
awk [options] ‘BEGIN{ action;… } pattern{ action;… } END{ action;… }‘ file ...
awk 程序通常由：BEGIN语句块、能够使用模式匹配的通用语句块、END语句块，共3部分组成

program必须被单引号括住

工作原理

类似sed，也会向内存申请一块空间，每次读取文件一行，按照分隔符切割成字段——列，对于这些列，awk有专门的名称表示： $0——整行； $1 ——第一列；$2 $3 ;然后根据需要打印特定的列（默认有一个自动打印所有列的功能）

第一步：执行BEGIN{action;… }语句块中的语句
第二步：从文件或标准输入(stdin)读取一行，然后执行pattern{ action;… }语句块，它逐行扫描文件，从第一行到最后一行重复这个过程，直到文件全部被读取完毕。
第三步：当读至输入流末尾时，执行END{action;…}语句块
? BEGIN语句块在awk开始从输入流中读取行之前被执行，这是一个可选的语句块，比如变量初始化、打印输出表格的表头等语句通常可以写在BEGIN语句块中

? END语句块在awk从输入流中读取完所有的行之后即被执行，比如打印所有行的分析结果这类信息汇总都是在END语句块中完成，它也是一个可选语句块

? pattern语句块中的通用命令是最重要的部分，也是可选的。如果没有提供pattern语句块，则默认执行{ print }，即打印每一个读取到的行，awk读取的每一行都会执行该语句块

选项

默认分隔符为空格；

-f：将程序放入文本中，-f调用
-F：指定分隔符
-v var=value：自定义变量

分隔符、域和记录

? awk执行时，由分隔符分隔的字段（域）标记$1,$2..$n称为域标识。$0为所有域，
注意：和shell中变量$符含义不同
? 文件的每一行称为记录
? 省略action，则默认执行 print $0 的操作

基本格式

awk [options] ‘program‘ file

program由两部分组成：模式+动作

pattern：表示模式，根据pattern条件，过滤匹配的行进行处理，不写则匹配每一行；

action：动作，常用于打印

BEGIN——表示在处理文件之前执行的语句；

END———表示在处理完文件之后执行的语句，如汇总

print

print格式： print item1, item2, ...
要点：
(1) 逗号分隔符
(2) 输出的各item可以字符串，也可以是数值；当前记录的字段、变量或awk的表达式
(3) 如省略item，相当于print $0

示例:

> 取分区的第一列和第三列
[root@centos7 ~ ]#df|awk ‘{print $1,$3}‘
Filesystem Used
/dev/sda2 4275140
devtmpfs 0
tmpfs 0
tmpfs 10312
tmpfs 0
/dev/sda3 33112
/dev/sda1 157932
tmpfs 32
/dev/sr0 9176232

> 打印固定字符符,默认awk接收标准输入
[root@centos7 ~ ]#awk ‘{print "hello,awk"}‘
xin
hello,awk
haha
hello,awk
wang
hello,awk
lhy
hello,awk
^C
[root@centos7 ~ ]#

> 多个字段用tab分割，分割符需要用双引号引起来，否则报错
[root@centos7 ~ ]#awk -F: ‘{print $1"\t"$2}‘ /etc/passwd
root    x
bin x
daemon  x
adm x
lp  x
sync    x
shutdown    x
halt    x

> 取分区利用率：
[root@centos7 ~ ]#df|grep "^/dev/sd"|awk ‘{print $1"\t"$5}‘|awk -F% ‘{print $1}‘
/dev/sda2   9
/dev/sda3   1
/dev/sda1   16
后面还有更加简单的方法，不信，那就接着往下看

awk变量

变量赋值必须加-v

awk变量分为内置变量和自定义变量

内置变量

FS：输入字段分割符，即读取的文件中列与列之间的分隔符，为未处理之前，默认为空格；

[root@centos7 ~ ]#awk -v FS=: ‘{print $1,$3}‘ /etc/passwd
root 0
bin 1
daemon 2
adm 3
lp 4
sync 5
shutdown 6

> 好处：可以在{}中引用
[root@centos7 ~ ]#awk -v FS=: ‘{print $1FS$3}‘ /etc/passwd
root:0
bin:1
daemon:2
adm:3

> 并且支持shell变量
[root@centos7 ~ ]#set=:
[root@centos7 ~ ]#echo $set
:
[root@centos7 ~ ]#awk -v FS=$set ‘{print $1FS$3}‘ /etc/passwd
root:0
bin:1
daemon:2
adm:3
lp:4

OFS：输出字段分隔符，为处理之后的分隔符，默认为空格；

> 指定输出字段分割符为----,建议对分隔符的值用引号引起来
[root@centos7 ~ ]#awk -v FS=":"  -v OFS="----" ‘{print $1,$3}‘ /etc/passwd
root----0
bin----1
daemon----2
adm----3
lp----4

RS：输入记录分隔符，即行与行之间的分隔符，默认为换行符；

> 准备环境：“;”行的分隔符，","为列的分隔符；
[root@centos7 data ]#cat f1
a,b,c;1,2,3,4;A,B,C
aa,bb,cc,dd

> 打印每一行的第3列和第4列 
[root@centos7 data ]#awk -v FS="," -v RS=";" ‘{print $3,$4}‘ f1
c 
3 4
C
aa bb
虽然C和aa换行了，但是以逗号为分隔符，所以输出的字段Caa为一列，不过保留换行；

ORS：输出记录分隔符，默认为换行符

[root@centos7 data ]#cat f1
a,b,c;1,2,3,4;A,B,C
aa,bb,cc,dd

> 指定输出的列的分隔符为--，输出的行的分隔符为+++
[root@centos7 data ]#awk -v FS="," -v OFS="--" -v RS=";" -v ORS="+++" ‘{print $3,$4}‘ f1
c--+++3--4+++C
aa--bb+++[root@centos7 data ]#
可以看到Caa是在一行的，并且是一列；

NF：字段数量

> 打印/etc/passwd中每一行的字段数量
[root@centos7 data ]#awk -F: ‘{print NF}‘ /etc/passwd
7
7
7
7
7

> 打印最后一个字段
[root@centos7 data ]#awk -F: ‘{print $7}‘ /etc/passwd
/bin/bash
/sbin/nologin
/sbin/nologin>
/sbin/nologin

> 通过NF打印最后一个字段
[root@centos7 data ]#awk -F: ‘{print $NF}‘ /etc/passwd
/bin/bash
/sbin/

> 打印倒数第三个字段
[root@centos7 data ]#awk -F: ‘{print $NF-2}‘ /etc/passwd
-2
-2
-2
-2
> 注意：要加（），否则会出现上面的情况
[root@centos7 data ]#awk -F: ‘{print $(NF-2)}‘ /etc/passwd
root
bin
daemon
adm

NR：记录号，第几条记录，说白了就是行号

[root@centos7 data ]#awk  -F: ‘{print NR,$1}‘ /etc/passwd
1 root
2 bin
3 daemon
4 adm
5 lp
6 sync

注意：NR后面跟多个文件时，会合并统一计数

技术分享图片

FNR：各文件分别计数，记录号

技术分享图片

FILENAME：当前文件名

[root@centos7 data ]#awk -F: ‘{print FNR,FILENAME,$1}‘ /etc/passwd /etc/issue
1 /etc/passwd root
2 /etc/passwd bin
3 /etc/passwd daemon
4 /etc/passwd adm
5 /etc/passwd lp
6 /etc/passwd sync
7 /etc/passwd shutdown
8 /etc/passwd halt
9 /etc/passwd mail

ARGC：命令行参数的个数

[root@centos7 data ]#awk -F: ‘{print ARGC}‘ /etc/passwd /etc/issue
3
3
3
3
3
> 怎么样，有没有很奇怪，不应该是两个参数吗？ 看下面

ARGV：数组，保存命令行各个参数

自定义变量

-v var=value
在program中直接定义

示例：

[root@centos7 data ]#awk -F: -v USER="username" -v UID="userid" -v ORS="\n-------\n" ‘{print USER":"$1"\n"UID":"$3}‘ /etc/passwd
username:root
userid:0
-------
username:bin
userid:1
-------
username:daemon
userid:2
-------

[root@centos7 data ]#awk -F: ‘{USER="username";UID="userid";print USER":"$1"\n"UID":"$3}‘  /etc/passwd 
username:root
userid:0
username:bin
userid:1
username:daemon
userid:2
username:adm

变量必须先定义，再使用；

-f的用法————调用文件中的program

[root@centos7 data ]#cat awk.txt 
{USER="username";UID="userid";print USER":"$1"\n"UID":"$3}  
[root@centos7 data ]#awk -F: -f awk.txt /etc/passwd
username:root
userid:0
username:bin
userid:1

printf命令

格式化输出；

语法：

printf “FORMAT”, item1, item2,

必须指定FORMAT
不会自动换行，需要显式给出换行控制符，\n
FORMAT中需要分别为后面每个item指定格式符

格式化符，常用的是%s和%d

格式符：与item一一对应
%c: 显示字符的ASCII码
%d, %i: 显示十进制整数
%e, %E:显示科学计数法数值
%f：显示为浮点数
%g, %G：以科学计数法或浮点形式显示数值
%s：显示字符串
%u：无符号整数
%%: 显示%自身

修饰符，

#[.#]：第一个数字控制显示的宽度；第二个#表示小数点后精度，%3.1f
-: 左对齐（默认右对齐） %-15s
+：显示数值的正负符号 %+d

示例：

awk -F: ‘{printf "%s",$1}’ /etc/passwd
awk -F: ‘{printf "%s\n",$1}’ /etc/passwd
awk -F: ‘{printf "%-20s %10d\n",$1,$3}‘ /etc/passwd
awk -F: ‘{printf "Username: %s\n",$1}’ /etc/passwd
awk -F: ‘{printf “Username: %s,UID:%d\n",$1,$3}’ /etc/passwd
awk -F: ‘{printf "Username: %15s,UID:%d\n",$1,$3}’ /etc/passwd
awk -F: ‘{printf "Username: %-15s,UID:%d\n",$1,$3}’ /etc/passwd

技术分享图片

-F指定多分隔符

技术分享图片

面试题

实验环境：
[root@centos7 data ]#cat host.txt 
1 blog.xin.com
2 www.wang.com
3 good.xin.com
999 study.wang.com

实验要求：取出每一行中的主机名，如blog、www等，然后追加到该文本中。

步骤：
[root@centos7 data ]#awk -F"[ .]" ‘{print $2}‘ host.txt >> host.txt 
[root@centos7 data ]#cat host.txt 
1 blog.xin.com
2 www.wang.com
3 good.xin.com
999 study.wang.com
blog
www
good
study

操作符

算术操作符

x+y, x-y, x*y, x/y, x^y, x%y
-x: 转换为负数
+x: 转换为数值

字符串操作符

没有符号的操作符，字符串连接

赋值操作符

=, +=, -=, *=, /=, %=, ^=
++, --

注意点：i++和++i的区别
++i和i++虽然都会对i进行+1赋值给i，但是顺序是不一样的：
i++是先使用i，再去进行+运算；
++i是先运算，再去使用i；

比较操作符

==, !=, >, >=, <, <=

示例：
[root@centos7 data ]#awk -F: ‘$3==0{print $1}‘ /etc/passwd
root
[root@centos7 data ]#awk -F: ‘$3!=0{print $1}‘ /etc/passwd
bin
daemon
adm
......
[root@centos7 data ]#awk -F: ‘$3>=1000{print $1}‘ /etc/passwd
nfsnobody
xin
lhy

模式匹配符

~：左边是否包含右边的字符
!~：不包含

示例：
> $0即整行，是否包含root字符的行
[root@centos7 data ]#awk -F: ‘$0 ~ /root/{print $1}‘ /etc/passwd
root
operator
> 虽然使用双引号也可以，但是不建议，有些时候会报错，并且//之间支持正则表达式
[root@centos7 data ]#awk -F: ‘$0 ~ "root"{print $1}‘ /etc/passwd
root
operator

> $0中以root开头的行
[root@centos7 data ]#awk -F: ‘$0 ~ /^root/{print $1}‘ /etc/passwd
root
> 不以root开头的行，取反
[root@centos7 data ]#awk -F: ‘$0 !~ /^root/{print $1}‘ /etc/passwd
bin
daemon
adm
......

注意：模式匹配符可以不用，因为awk默认直接可以匹配正则，详情往先看

逻辑操作符

逻辑操作符：与&&，或||，非!

示例：
? awk –F: ‘$3>=0 && $3<=1000 {print $1}‘ /etc/passwd
? awk -F: ‘$3==0 || $3>=1000 {print $1}‘ /etc/passwd
? awk -F: ‘!($3==0) {print $1}‘ /etc/passwd
? awk -F: ‘!($3>=500) {print $3}’ /etc/passwd

注意：取反要加小括号，否则报错

条件表达式（三目表达式）：

selector?if-true-expression:if-false-expression

即：A? B：C
A为条件，B和C是动作；如果A为真，则执行B；否则执行C；
注意B和C之间的分隔符为：

示例：
awk -F: ‘{$3>=1000?usertype="Common User":usertype="Sysadmin or SysUser";printf
"%15s:%-s\n",$1,usertype}‘ /etc/passwd

awk PATTERN

直接支持正则，不需要$0 ~等额外的字符

如果未指定：空模式，匹配每一行
/regular expression/：仅处理能够模式匹配到的行，需要用/ /括起来

如：awk ‘/^UUID/{print $1}‘ /etc/fstab

print省略后，打印整行

> 过滤分区，前面使用的是grep，现在完全可以都使用awk解决了
[root@centos7 data ]#df |awk ‘/^\/dev\/sd/‘
/dev/sda2       52403200 4276856  48126344   9% /
/dev/sda3       31441920   33120  31408800   1% /data
/dev/sda1        1038336  157932    880404  16% /boot

> 统计/etc/fstab文件中文件系统的类型并统计次数
[root@centos7 data ]#awk ‘/^UUID/{print $3}‘ /etc/fstab|sort|uniq -c
      1 swap
      3 xfs

> 统计netstat -nt中外部ip地址连接的次数，并按照连接次数进行排序
[root@centos7 data ]#netstat -nt|awk -F‘[ :]+‘ ‘/^tcp/{print $6}‘|sort|uniq -c|sort -nr
      1 192.168.137.8
      1 192.168.137.6
      1 192.168.137.1

面试题：统计netstat -nt中并发连接数排在前10名的ip和连接数

relational expression: 关系表达式，结果为“真”才会被处理
真：结果为非0值，非空字符串
假：结果为空字符串或0值

> 由于""为空，则为假，不打印
[root@centos7 data ]#awk -F: ‘""{print $1}‘ /etc/passwd
> 由于空格为真，则打印
[root@centos7 data ]#awk -F: ‘" "{print $1}‘ /etc/passwd
root
bin
daemon
> 为0则为假不打印；为1则为真打印
[root@centos7 data ]#awk -F: ‘0{print $1}‘ /etc/passwd
[root@centos7 data ]#awk -F: ‘1{print $1}‘ /etc/passwd
root
bin
daemon
adm

> true打印，false不打印
[root@centos7 data ]#seq 10|awk "i=9"
1
2
3
4
5
6
7
8
9
10
[root@centos7 data ]#seq 10|awk "i=0"
[root@centos7 data ]#

> 打印奇数：
[root@centos7 data ]#seq 10|awk ‘i=!i‘
1
3
5
7
9
说明：由于i最开始赋值为空，则第一次!i=1,打印1；第二次!i=0,不打印2；第三次!i=1.打印i=3;第四次不打印，第五次打印5;所以打印的是奇数：即 1 3 5 7 9，可以通过seq 10|awk ‘{i=!i;print i}‘查看执行过程

> 打印偶数
方法1：取反
[root@centos7 data ]#seq 10|awk ‘!(i=!i)‘
2
4
6
8
10
方法2：直接对i赋值，任意非空值即可
[root@centos7 data ]#seq 10|awk -v i=1 ‘i=!i‘
2
4
6
8
10

类比：sed打印奇数和偶数
[root@centos7 data ]#seq 10|sed -n ‘1~2p‘
1
3
5
7
9
[root@centos7 data ]#seq 10|sed -n ‘2~2p‘
2
4
6
8
10

行范围

类比sed取行的方式：
[root@centos7 data ]#sed -n ‘1,3p‘ /etc/passwd
root:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin

> 模式匹配
[root@centos7 data ]#sed -n ‘/^b/,/^f/p‘ /etc/passwd
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin
adm:x:3:4:adm:/var/adm:/sbin/nologin
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
sync:x:5:0:sync:/sbin:/bin/sync
shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
halt:x:7:0:halt:/sbin:/sbin/halt
mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
operator:x:11:0:operator:/root:/sbin/nologin
games:x:12:100:games:/usr/games:/sbin/nologin
ftp:x:14:50:FTP User:/var/ftp:/sbin/nologin

awk数字匹配行
[root@centos7 data ]#awk -F:  ‘(NR>=1&&NR<=3){print NR,$0}‘ /etc/passwd
1 root:x:0:0:root:/root:/bin/bash
2 bin:x:1:1:bin:/bin:/sbin/nologin
3 daemon:x:2:2:daemon:/sbin:/sbin/nologin

awk模式匹配行
[root@centos7 data ]#awk -F: ‘/^root\>/,/^nobody\>/{print $1}‘ /etc/passwd
root
bin
daemon
adm
lp
sync
shutdown
halt
mail
operator
games
ftp
nobody

BEGIN/END模式

BEGIN{} :处理文件之前执行
END{} : 处理文件之后执行

示例：
[root@centos7 data ]#awk -F: ‘BEGIN {print "USER:XIN"}{print $0}END{print "end file"}‘ /etc/issue
USER:XIN
\S
Kernel \r on an \m

end file

awk学习（一）

标签：之间 format 表头 awk 引号计数汇总 gre ascii

原文地址：http://blog.51cto.com/13668904/2285697

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

awk学习（一）

基本语法

工作原理

选项

分隔符、域和记录

基本格式

print

awk变量

内置变量

FS：输入字段分割符，即读取的文件中列与列之间的分隔符，为未处理之前，默认为空格；

OFS：输出字段分隔符，为处理之后的分隔符，默认为空格；

ORS：输出记录分隔符，默认为换行符

NF：字段数量

NR： 记录号，第几条记录，说白了就是行号

FNR：各文件分别计数，记录号

FILENAME：当前文件名

ARGC：命令行参数的个数

ARGV：数组，保存命令行各个参数

自定义变量

-f的用法————调用文件中的program

printf命令

-F指定多分隔符

面试题

操作符

算术操作符

字符串操作符

赋值操作符

比较操作符

模式匹配符

逻辑操作符

条件表达式（三目表达式）：

awk PATTERN

面试题：统计netstat -nt中并发连接数排在前10名的ip和连接数

NR：记录号，第几条记录，说白了就是行号