文本处理三剑客之awk（原创）

时间：2018-08-04 11:41:39 阅读：226 评论：0 收藏：0 [点我收藏+]

标签：内建函数一次循环 als themes 赋值操作符函数调用匹配 i++ 字符串

文本处理三剑客之awk（原创）

AWK是一种优良的文本处理工具，Linux及Unix环境中现有的功能最强大的数据处理引擎之一。这种编程及数据操作语言（其名称得自于它的创始人阿尔佛雷德·艾侯(Alfred Aho)、彼得·溫伯格(Peter Jay Weinberger)和布萊恩·柯林漢(Brian Wilson Kernighan)姓氏的首个字母）的最大功能取决于一个人所拥有的知识。AWK提供了极其强大的功能：可以进行正则表达式的匹配，样式装入、流控制、数学运算符、进程控制语句甚至于内置的变量和函数。它具备了一个完整的语言所应具有的几乎所有精美特性。实际上AWK的确拥有自己的语言：AWK程序设计语言，三位创建者已将它正式定义为“样式扫描和处理语言”。它允许您创建简短的程序，这些程序读取输入文件、为数据排序、处理数据、对输入执行计算以及生成报表，还有无数其他的功能。gawk是AWK的GNU版本。最简单地说，AWK是一种用于处理文本的编程语言工具。AWK在很多方面类似于Unix shell编程语言，尽管AWK具有完全属于其本身的语法。它的设计思想来源于SNOBOL4、sed、Marc Rochkind设计的有效性语言、语言工具yacc和lex，当然还从C语言中获取了一些优秀的思想。在最初创造AWK时，其目的是用于文本处理，并且这种语言的基础是，只要在输入数据中有模式匹配，就执行一系列指令。该实用工具扫描文件中的每一行，查找与命令行中所给定内容相匹配的模式。如果发现匹配内容，则进行下一个编程步骤。如果找不到匹配内容，则继续处理下一行。

在我们的Linux中，awk其实是gawk的一个软连接，所以我们所使用的都是GNU AWK：

awk的运行方式：

(1) awk命令行

# awk

(2) awk程序文件

# awk -f /path/from/awk_script

(3) awk脚本

#!/bin/awk –f

Awk在处理文本时会将每一行读取到自己的内存空间当中，并将每一行文本根据我们制定的分隔符等分成不同的区域，类似脚本的内置位置变量。在处理完之后，输出时awk依然是按照一行来输出的，即便是输出的内容不是原来的一整行，输出的分割符默认为空格，也可以自定义。

基本用法：

gawk [OPTIONS] 'program' FILE1 FILE2 ...

program: PATTERN{ACTION STATEMENT}

由语句组成，各语句间使用分号分隔;

ACTION: print, printf

选项：

-F[]: 指明输入字段分隔符，可以是多个，例：-F [:,]即用:当分隔符又用,当分隔符；

-v VAR_NAME=VALUE: 变量赋值；

-f /PATH/FROM/AWK_SCRIPT：

1、awk的输出命令之一：print

用法：print item1, item2, ...

item：

字符串：用引号引用；

print "hello", "world"

变量：显示变量的值；

print name

引用变量：直接使用变量名

数值：无须加引号

要点：

(1) 各item之间需要使用逗号分隔；而输出时的分隔符为默认为空白字符；

(2) 输出的各item可以为字符串或数值、当前记录的字段($#)、变量或awk的表达式；数值会被隐式转换为字符串进行输出；

(3) print后面的item省略时，相当于运行“print $0”，用于输出整行；

(4) 输出空白字符：print " "

2、变量

内建变量，自定义变量

2.1 内置变量

AWK的内建变量包括域变量，例如$1, $2, $3，以及$0。这些变量给出了记录中域的内容。内建变量也包括一些其他变量：

NR：已输入记录的条数。

FNR：行数，各文件单独计数。

NF：当前记录中域的个数。记录中最后一个域可以以$NF的方式引用。print NF 每行有几个字段，print $NF 显示每一行的最后一个字段

FILENAME：当前输入文件的文件名。

FS：“域分隔符”，用于将输入记录分割成域。其默认值为“空白字符”，即空格和制表符。FS可以替换为其它字符，从而改变域分隔符。-v FS="[ ,:.]"

RS：当前的“记录分隔符”。默认状态下，输入的每行都被作为一个记录，因此默认记录分隔符是换行符。

OFS：“输出域分隔符”，即分隔print命令的参数的符号。其默认值为空格。

ORS：“输出记录分隔符”，即每个print命令之间的符号。其默认值为换行符。

OFMT：“输出数字格式”（Format for numeric output），其默认值为"%.6g"。

ARGC：awk命令行中的参数的个数。

ARGV：数组，保存了命令行参数本身。

2.2 自定义变量

(1) -v VAR_NAME=VALUE

变量名区分字符大小写；

(2) 在program中自定义变量

# awk 'BEGIN{FS=":";f1=3}{print $f1}' /etc/passwd

f1赋值一次一直使用

每读取一行f1赋一次值

3、awk的输出命令之二：printf

语法：printf FORMAT(格式),item1,item2,...

要点：

(1) 必须提供FORMAT；

(2) 与print语句不同，printf不会自动换行，需要显式指定换行符：\n

(3) FORMAT中需要分别为后面的每个item指定一个格式符，否则item则无法显示；

格式符：都以%开头，后跟单个字符；

%c: 显示字符的ASCII码；

%d, %i：显示为十进制整数；

%e, %E: 科学计数法显示数值；

%f：显示为浮点数；

%g, %G：以科学计数法或浮点数格式显示数值；

%s: 显示为字符串；

%u：显示无符号整数；

%%: 显示%符号自身；

修饰符：

#[.#]：

左边的#：用于指定显示宽度；

右边的#: 显示精度；

+：显示数值符号

-：左对齐

4、操作符

算术操作符：

x+y, x-y, x*y, x/y, x^y, x%y

-x: 负值

+x: 转换为数值

字符操作符：字符串连接

赋值操作符：

=, +=, -=, *=, /=, %=, ^=

++, --

比较操作符：

>, >=, <, <=, ==, !=

模式匹配操作符：

~：是否能由右侧指定的模式所匹配；

!~：是否不能由右侧指定模式所匹配；

逻辑操作符：

&&：与运算

||: 或运算

条件表达式：

selector?if-true-expression:if-false-expression

# awk -F: '{$3>=500?usertype="Common User":usertype="Sysadmin or Sysuser";printf "%15s:%-s\n",$1,usertype}' /etc/passwd

函数调用：

function_name(argu1, argu2, ...)

5、PATTERN模式

(1) empty：空模式，匹配所有行；

(2) /Regular Expression/(正则表达式)：仅将ACTION应用于能够被Regular Expression所匹配到的行；

例如：awk -F: '/^[ab]/{print $1,$3}' /etc/passwd

(3) relational expression：关系表达式，即结果为“真”、“假”的表达式，或者其结果能类同于“真”或“假”的表达；一般来说，其结果为非0数值或非空字符串即可类同为“真”，否则，则类同为“假”；

例如：awk -F: '$3>=500{print $1,$3}' /etc/passwd

例如：awk -F: '$1~/root/{print $1,$3}' /etc/passwd

(4) line ranges：行范围，类似sed或vim中的地址定界方式

startline,endline

此方式我没有试验成功，待定

(5) BEGIN/END：两个特殊模式

BEGIN：在文件格式化操作开始之前事先执行的一次操作；通常用于输出表头或做出一个预处理操作；

END：在文件格式操作完成之后，命令退出之前执行的一次操作；通常用于输出表尾或做出清理操作；

6、常用ACTION

(1) EXPRESSIONS：例如变量赋值

(2) Control Statements：控制语句，如if, while等；

(3) Compound Statements：复合语句

(4) input statements：输入语句

(5) output statements：输出语句

7、控制语句

if (condition) { statements } [else { statement }]

while (condition) { statements }

do statement while (condition)

for(expr1;expr2;expr3) { statements }

for(var in array) { statements }

switch (expression) {case VALUE or /REGEXP/: statement; ...; default: statementN}

break

continue

delete array[index]

delete array

exit [ expression ]

{ statements }

7.1 if-else

语法：if (condition) statement [ else statement ]

if (condition) {statements} [else {statements}]

~]# awk -F: '{if ($3>=500) print $1,$3}' /etc/passwd

~]# awk '{if (NF>=6) print NF,$0}' /etc/rc.d/rc.sysinit

~]# awk -F: '{if ($3>=500) {print $1,"is a common user"} else {print $1,"is a sysadmin or sysuser"}}' /etc/passwd

使用场景：对awk取得的整行或行中的字段做条件判断；

7.2 while循环

语法：while (condition) statement

while (condition) {statements}

条件为“真”时循环，为“假”时退出循环；

使用场景：通常用于在当前行的各字段间进行循环；

~]# awk '{i=1;while(i<=NF){if (length($i)>=6) {print $i};i++}}' /etc/issue

7.3 do-while循环

语法：do statement while (condition)

do {statements} while (condtion)

意义：至少执行一次循环体

7.4 for循环

语法：for (expr1;expr2;expr3) statement

for (expr1;expr2;expr3) {statements}

for (variable assignment;codition;iteration process) {for-body}

# awk '{for(i=1;i<=NF;i++){if(length($i)>=6) print $i}}' /etc/issue

第二种用法：用于遍历数组中的元素

for (var_name in array) {for-body}

7.5 swtich

语法：switch (expression) {case VALUE or /REGEXP/: statement; ...; default: statementN}

7.6 break and continue

break [n]：退出当前循环，n是一个数字，用于指定退出几层循环；

continue：提前结束本轮循环而进入下一轮；

7.7 next

提前结束对本行文本的处理，而提前进入下一行的处理操作；

~]# awk -F: '{if($3%2==0) next;print $1,$3}' /etc/passwd

8、数组

关联数组：array[index-expression]

index-expression：

可以使用任意字符；

如果某数组元素事先不存在，则在引用时，awk会自动创建此元素并将其值初始化为空串；

因此，若要判断数组中的某元素是否存在，要使用“index in array”的方式进行判断；

要遍历数组中的元素，则要使用for (var_name in array)的方式进行；此时，var_name会遍历array的每个索引，所以，要显示数组元素的值，要使用array[var_name]

weekdays

weekdays[mon]="Monday"

weekdays[tue]="Tuesday"

...

for (i in weekdays)：此时，i变量会遍历weekdays数组的每个索引，即mon, tue，而非元素的值“Monday”或"Tuesday"等；

要获取元素的值：weekdays[i]

9、函数

内建函数和用户自定义函数

9.1 内建函数

数值处理：

rand()：返回0至1之间的一个随机数；

字符串处理：

length([s])：返回指定的字符串的长度；

sub(r,s[,t])：基于r所表示的模式来匹配字符串t中的内容，将其第一次被匹配到的内容替换为s所表示的字符串；

gsub(r,s[,t])：基于r所表示的模式来匹配字符串t中的内容，将其所有被匹配到的内容均替换为s所表示的字符串；

split(s,a[,r])：以r为分隔符去切割字符串s，并将切割后的结果保存至a表示的数组中；

注意：awk的数组下标从1开始编号

~]# awk '{split($0,userinfo,":");print userinfo[1]}' /etc/passwd

substr(s,i[,n])：从s所表示的字符串中取子串，取法：从i表示的位置开始，取n个字符；

时间类函数：

systime()：取当前系统时间，结果形式为时间戳；

9.2 用户自定义函数

function f_name(p,q) {

...

}

文本处理三剑客之awk（原创）

标签：内建函数一次循环 als themes 赋值操作符函数调用匹配 i++ 字符串

原文地址：http://blog.51cto.com/13869667/2154334

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行