linux正则表达式与文件格式化处理指令

时间：2014-12-28 02:00:01 阅读：221 评论：0 收藏：0 [点我收藏+]

标签：grep dmesg cmp patch pr awk sed egrep正则表达式

1.特殊符号：

1）[:alnum:]：字母和数字

2）[:alpha:]：字母

3）[:blank:]：空格和tab键

4）[:cntrl:]:控制键CR，LF，Tab，Del等

5）[:digit:]：数字

6）[:graph:]：除了空格符（空格和tab）外的其他按键

7）[:lower:]：小写字母

8）[:print:]：可打印字符

9）[:punct:]：标点符号

10）[:upper:]：大写字母

11）[:space:]：空白字符，如空格，tab，ctr等

12）[:xdigit:]：16进制数字

2.grep [-AB] [--color=auto] ‘搜寻字符串’ filename：参数

1）-A：after，后面直接接数字，除了列出该行之外，还列出后面的n行

2）-B：before，后面直接接数字，除了列出该行之外，还列出后面的n行

其他参数可参考：http://7613577.blog.51cto.com/7603577/1595762

3.dmesg [-cn][-s <缓冲区大小>]：显示开机信息，保存在/var/log目录中，参数：

1）-c：显示信息后，清除ring buffer中的内容

2）-s<缓冲区大小>：预设置为81896，刚好等于ring buffer的大小

3）-n：设置记录信息的层级

说明：该指令主要用于显示内核环缓冲区内容，内核将各种消息存放在这里。在系统引导时，内核将与硬件和模块初始化相关信息填到这个缓冲区中。内核缓冲区中消息对于诊断系统问题，通常非常有用。在运行dmesg时，它显示大量信息。通常通过less或grep使用管道查看dmesg的输出，这样可以更容易找到待查信息。

4.正则表达式中，“.”有且仅有一个任意字符；“*”：表示重复前一个字符0次或多次。

5.正则表达式小结：

1）^word：待搜索字符在行首

2）word$：待搜索字符在行尾

3）.：一个任意字符

4）\：转义字符

5）*：重复前一个字符0次或多次

6）[list]：匹配中括号中的任一字符

7）[n1-n2]：匹配从n1到n2之间连续字符中的一个

8）[^list]：匹配除了list以外的任一字符

9）\{n,m\}：重复前一个字符n到m次

6.sed [-nefr] [动作]：管线命令，可以对数据进行取代，删除新增，撷取特定行等，参数，

1）-n：使用安静模式，在一般sed的用法中，所有来自STDIN的数据都会被列到屏幕上但如果加上-n参数后，则只有经过sed特殊处理的哪一行才会被列出来

2）-e：直接在指令列模式上进行sed的动作编辑，即进行多个指令连续操作

3）-f：直接将sed的动作写在一个档案内，-f filename则可以执行filename内的sed动作

4）-r：sed动作支持的是延伸型正则表示法的语法

5）-i：直接修改读取的档案内容，而不是由屏幕输出

动作说明：’[n1][,n2] function’

n1，n2：不见得会存在，一般表示“选择进行动作的行数

function 有如下这些：

1）a：新增，a的后面可以接字符串，而这些字符串会在下一行出现

2）c：取代，c的后面可以接字符串，这些字符串可以取代n1，n2之间的行

3）d：删除，

4）i：插入，i的后面可以接字符串，而这些字符串会在新的一行出现（目前的上一行）

5）p：打印，亦即将某个选择的数据打印出，通常p会与参数sed –n一起运作

6）s：取代，可以直接进行取代的工作，通常这个s可以搭配正则表示法。

7.egrep ：延伸正则表达式，相当于grep的加强版，延伸正则表达式支持的特殊符号：

1）+：重复一个或多个前一个字符

2）？：零个或一个前面的字符

3）|：用或的方式找出数个字符串

4）（）：找出群组字符串

5）（）+：重复括号中的字符一次或多次

8.printf ‘打印格式’ 实际内容：非管线指令，打印格式有：

1）\a：警告声音输出

2）\b：退格键

3）\f：清除屏幕

4）\n：输出新的一行

5）\r：亦即Enter键

6）\t：水平的tab键

7）\v：垂直的tab键

8）\xNN NN为两位数字，可以转换数字称为字符

常见的参数格式

1）%ns：n，数字，s字符串，即有多少个字符串

2）%ni：i，integer，即有多少个整数字数

3）%N.nf：f，float，即有N位整数位，和n位小数位

9.awk ‘条件类型1{动作1} 条件类型2{动作2} …’ filename：数据处理工具，适用于小型数据处理，该指令可以处理后续接的档案，也可以读取来自前一个指令的standard out，awk主要处理每一行的段内的数据，而默认的字段分隔符为空格或tab键。即通过$n（n从1开始），表示第几个字段。awk以行为处理单位，以字段为一次最小处理单位，awk内建变量，

1）NF：每一行（$0）拥有的字段总数

2）NR：目前awk所处理的第几行数据

3）FS：目前的分隔符，默认是空格键

awk逻辑运算字符：>,<,>=,<=,==,!=。

awk的指令间隔：所有awk的动作，亦即在{}内的动作，如果有需要多个指令辅助时，可利用“；”间隔，或者直接以Enter按键来隔开。

在格式化输出时，在printf的格式设定当中，务必加上\n，才能进行分析

awk中变量可以直接使用，不需要加上$符号

awk还支持if条件判断。

10.diff [-bBi] from –file to -file：用来比较两个档案之间的差异，并且是以行为单位来对比的。参数：

1）from -file：一个档名，作为原始对比档案名

2）to -file：一个档名，作为目的对比档案的档名

这里 from –file 或to –file可以用-取代，那个-代表标准输入之意。

3）-b：忽略一行当中，仅有多个空白的差异

4）-B：忽略空白行的差异

5）-i：忽略大小写的差异

可以通过diff -Naur file.old file.new>file.patch：生成差异档案。在档案中，行首“-”号代表旧的档案删除的内容，+代表新的档案添加的内容。

11.cmp [-s] file1 file2：通过字节单位对比两个档案的差异，参数：

1）-s：将所有不同点的字节处都列出来，因为预设cmp仅会输出第一个发现不同点。

这个指令多用于比较binary文件。

12.patch –pN <patch_file，更新档案；patch -R –pN <patch_file，还原成旧档案：参数，

1）-P：后面可以接取消几层目录

2）-R：代表还原，将新的档案还原成原来旧的档案

其中patch_file是diff生成的差异档案

13.pr：打印档案的指令，会有页码、标题等

本文出自 “虎哥的博客” 博客，请务必保留此出处http://7613577.blog.51cto.com/7603577/1596571

linux正则表达式与文件格式化处理指令

标签：grep dmesg cmp patch pr awk sed egrep正则表达式

原文地址：http://7613577.blog.51cto.com/7603577/1596571

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行