Linux文本处理三剑客之awk详解

时间：2015-04-29 12:00:21 阅读：237 评论：0 收藏：0 [点我收藏+]

前言

awk是一款强大的报告生成器，不同于sed和grep,它的侧重点是如何把文本信息更好的展示出来，常用与统计和格式化输出。awk相当于微型的shell,有着自己一套语法结构，例如：循环结构，数组，条件判断，函数，内置变量等功能。处理对象一般纯文本文件或纯文本信息。

用法详解

基本语法

awk [options] ‘program‘ file file ...
awk [options] ‘PATTERN{action}‘ file file ...

-F CHAR：输入分隔符

awk的输出

print item1, item2,...

① 各项目之间使用逗号分隔，而输出时则使用输出分隔符分隔

② 输出的各item可以字符串或数值、当前记录的字段、变量或awk的表达式，数值会被隐式转换为字符串后输出

③ print后面item如果省略，相当于print $0，若输出空白，使用pirnt ""

模式

① Regexp: 格式为/PATTERN/，仅处理被/PATTERN/匹配到的行

② Expression: 表达式，其结果为非0或非空字符串时满足条件，仅处理满足条件的行

③ Ranges: 行范围，此前地址定界，startline, endline，仅处理范围内的行

④ BEGIN/END: 特殊模式，仅在awk命令的program运行之前（BEGIN）或运行之后（END）执行一次

⑤ Empty:空模式，匹配任意行

awk的变量

内置变量

FS：Field Seperator, 输入时的字段分隔符
RS：Record Seperator, 输出行分隔符
OFS: Output Field Seperator, 输出时的字段分隔符;
ORS: Outpput Row Seperator, 输出时的行分隔符；

NR：Numbers of Record, 行数；所有文件的一并计数

NF：Numbers of Field，字段数

FNR：行数；各文件分别计数；

ARGV：数组，保存命令本身这个字符，awk ‘{print $0}‘ 1.txt 2.txt，意味着ARGV[0]保存awk
ARGC: 保存awk命令中参数的个数
FILENAME： awk正在处理的当前文件的名称

可自定义变量

-v var_name=VALUE       #变量名区分字符大小写

①可以program中定义变量

② 可以命令行中通过-v选项自定义变量

awk的printf命令

命令使用格式：printf format, item1, item2,...

① 要指定format

②不会自动换行；如需换行则需要给出\n

③format用于为后面的每个item指定其输出格式

format格式的指示符都%开头，后跟一个字符：
		%c: 显示字符的ASCII码；
		%d, %i: 十进制整数；
		%e, %E: 科学计数法显示数值；
		%f: 显示浮点数；
		%g, %G: 以科学计数法格式或浮点数格式显示数值；
		%s: 显示字符串；
		%u: 显示无符号整数；
		%%: 显示%自身；
修饰符：
		#：显示宽度
		-：左对齐
		+：显示数值的符号
		.#: 取值精度

awk输出重定向

print items > output-file     #保存到某文件
print items >> output-file    #追加到某文件
print items | command         #使用管道交给某些命令处理

特殊文件描述符：
	/dev/stdin: 标准输入
	/dev/stdout: 标准输出
	/dev/stderr: 错误输出

awk的操作符

算术操作符：
	x+y
	x-y
	x*y
	x/y
	x**y, x^y
	x%y
	-x：负值
	+x：转换为数值

	字符串操作符：连接

赋值操作符：
	=
	+=
	-=
	*=
	/=
	%=
	^=
	**=
        ++
	--
        如果模式自身是=号，要写为/=/

比较操作符：
	<
	<=
	>
	>=
	==
	!=
	~：模式匹配，左边的字符串能够被右边的模式所匹配为真，否则为假；
	!~:不匹配为真，匹配为假

逻辑操作符：
	&&： 与
	||：或

条件表达式:
	selector?if-true-expression:if-false-expression

函数调用：
	function_name(argu1,argu2)

例：判断UID是否大于等于500，如果为真就显示为普通用户，如果为假就显示为系统或管理用户

常用的action

①Expressions：表达式赋值等

② Control statements：条件语句，控制语句if while...

③Compound statements：组合语句

④ input statements：输入语句

⑤ output statements：输出语句

控制语句

if-else

格式：if (condition) {then body} else {else body}

例：uid>=500的用户显示为普通用户，否则显示为管理用户

例：显示文件中字段数大于等于8的行

while

格式：while (condition) {while body}

例：只显示奇数行

例：只输出每行大于6的字段

do-while循环

格式：do {do-while body} while (condition)

例：输出1到100之和

for循环

格式：for (variable assignment; condition; iteration process) {for body}

例:显示奇数行

例：输出每行大于6的字段

for循环可用来遍历数组元素

语法：for (i in array) {for body}

例：A中保存数组，B中保存数组下标

case语句

语法：switch (expression) {case VALUE or /RGEEXP/: statement1;... default: stementN}

循环控制

break    #退出当前循环
continue #提前结束本轮循环，直接进入下轮循环

提前结束对本行的处理进而进入下一行的处理

例：显示用户id为奇数的用户

例：输出奇数行的用户

数组

关联数组

array[index-expression]
index-expression: 可以使用任意字符串; 如果某数组元素事先不存在，那么在引用时，awk会自动创
建此元素并将其初始化为空串；因此，要判断某数组是否存在某元素，必须使用“index in array”
这种格式

要遍历数组中的每一个元素，需要使用如下特殊结构

for (var in array) {for body}   #其var会遍历array的索引

例：统计每一种网络连接出现的次数

例：统计web服务访问日志中的ip访问量

删除数组元素

关系数组中删除数组索引需要使用delete命令

格式：delete array[index]

awk的内置函数

split(string,array[,fieldsep[,seps]])
功能：将string表示的字符串以fieldsep为分隔符进行切片，并切片后的结果保存至array为名的数组中；数组下标从1开始
此函数有返回值，返回值为切片后的元素的个数

例：统计连接请求的ip

length(string)
功能：返回给定字串的长度
substr(string,start[,length])
功能：从string中取子串，从start为起始位置为取length长度的子串
system(command)
功能：执行系统command并将结果返回至awk命令
systime()
功能：systime函数返回从1970年1月1日开始到当前时间(不计闰年)的整秒数
tolower(s)
功能：将s中的所有字母转为小写
toupper(s)
功能：将s中的所有字母转为大写

The end

好了，awk的用法就先说到这里了，awk不仅强大，而且看的我头大，有兴趣的可以深入研究，此篇就不继续深入了。以上仅为个人学习整理，如有错漏，大神勿喷~~~

本文出自 “北城书生” 博客，请务必保留此出处http://scholar.blog.51cto.com/9985645/1640179

Linux文本处理三剑客之awk详解

标签：awk 文本处理

原文地址：http://scholar.blog.51cto.com/9985645/1640179

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行