awk数组与语法

时间：2020-07-07 15:12:13 阅读：67 评论：0 收藏：0 [点我收藏+]

标签：动作 image 去重处理关联随机数 upload content 括号地址

1、awk数组

1.1 数组结构

技术图片

1.2 数组分类

索引数组：以数字为下标

关联数组：以字符串为下标

1.3 awk关联数组

现有如下文本，格式如下：即左边是随机字母，右边是随机数字, 即将相同的字母后面的数字加在一起，按字母的顺序输出

技术图片

以$1为下标，创建数组a[$1]=a[$1]+$2 或者（a[$1]+=$2）然后配合END和for循环输出结果：

技术图片

for(i in a ) ：循环的顺序不是按照文本内容的顺序来处理的，排序可以在命令后用sort

1.4 awk索引数组

以数字为下标的数组seq生成1-10数字，，只显示奇数行

技术图片

seq生成1-10的数字，要求不显示文件的后3行

技术图片

改变i的范围

1.5 awk数组实战去重

a++ 和++a

技术图片

对一下文本进行去重处理针对第二列去重

技术图片

解法一：

技术图片

解析：
!a[$2]++是模式（条件），命令也可写成awk ‘!
a[$2]=a[$2]+1{print $0}‘ 22.txt
a[$2]++ ，“++”在后，先取值后加一
!a[$2]=a[$2]+1：是先取a[$2]的值，比较“！a[$2]”是否符合条件(条件非0)，后加1
注意：此方法去重后的结果显示的是文本开头开始的所有不重复的行

解法二：

技术图片

解析：
++a[$2]==1是模式（条件），也可写成a[$2]=a[$2]+1==1即只有当条件（a[$2]+1的结果）为1的时候才打印出内容
++a[$2] ，“++”在前，先加一后取值
++a[$2]==1：是先加1，后取a[$2]的值，比较“++a[$2]”是否符合条件（值为1）
注意：此方法去重后的结果显示的是文本开头开始的所有不重复的行

解法三：

技术图片

解析：
注意此方法去重后的结果显示的是文本结尾开始的所有不重复的行

1.6 awk处理多个文件（数组、NR、FNR）

技术图片

解析：NR==FNR处理的是第一个文件，NR!=FNR处理的是第二个文件.
注意：当两个文件NR(行数)不同的时候，需要把行数多的放前边.
解决方法：把行数多的文件放前边，行数少的文件放后边.

把输出的结果放入一个新文件new.txt中：

技术图片

1.7 awk分析日志文件，统计访问网站的个数

技术图片

2、awk简单语法

2.1 函数sub gsub

技术图片

sub只会替换行内匹配的第一次内容；相当于sed ‘s###’
gsub 会替换行内匹配的所有内容；相当于sed ‘s###g’

技术图片

案例

以‘|‘为分隔，现要将第二个域字母前的数字去掉，其他地方都不变，输出为：

方法一：

技术图片

方法二：

技术图片

2.2 if else

技术图片

2.3 next用法

技术图片

解析：
{print $0" NO YES"}：此动作是默认执行的，当前边的$0~/AA/匹配，就会执行{print $0" YES";next}
因为action中有next，所以会跳过后边的action。
如果符合$0~/AA/则打印YES ，遇到next后，后边的动作不执行；如果不符合$0~/AA/，会执行next后边的动作；
next前边的（模式匹配），后边的就不执行，前边的不执行（模式不匹配），后边的就执行。