正则表达式

时间：2015-09-02 02:18:12 阅读：200 评论：0 收藏：0 [点我收藏+]

标签：文本文件 linux 表达式字符串通用

一什么是正则表达式

正则表达式是一种模式，它由元字符及普通字符组成，以文本文件中的行为处理单位，完成对字符串的匹配。通过使用正则表达式用户可以在配合其它工具的情况下，轻松的完成查找、删除、替换等字符串的处理工作。

元字符是在正则表达中使用的，不表示其自身字面意义，而表达为字符串通配或特定意义控制功能的字符。

正则表达式分为两种类型，基本的正则表达式及扩展的正则表达式。

二 linux中使用表达式的工具

正则表达式是一种通用的字符串匹配模式，它不能独立使用，也不是某一个程序和服务自带的功能，而是一种通用的模式，目前可以应用在许多的服务和程序中，所以如果要使用这个模式需要有支持的工具程序，在liunx中我们可以使用如下的命令来配合使用：

grep,egrep,fgrep

1.grep命令用法

命令格式：grep [OPTIONS] PATTERN [FILE...]

格式中 PATTERN 表示匹配的模式，即正则表达式；

选项：--color=[WHEN],--colour=[WHEN] 匹配到的字符串以高亮的方式显示

color 可使用的参数： auto always never

-o：显示被模式匹配到的行

-i：不区分大小写

-v：显示没有被匹配到的行

-E：使用扩展的正则表达式

-A #：#表示数字，意思是显示匹配到的行及以下的#行

-B #：意思是显示匹配到的行及以上的#行

-C #：显示匹配到的行及以上和以下的#行

三基本正则表达式

1.基本正则表达式的元字符及含义

1.1 字符匹配

. :匹配任意单个字符；

[] :匹配指定范围内的任意单个字符

[^]:匹配指定范围外的任意单个字符

[[:digit:]],[0-9]:匹配数字

[[:lower:]],[a-z]:匹配小写字母

[[:upper:]],[A-Z]:匹配大写字母

[[:alpha:]],[a-zA-Z]:匹配字母

[[:alnum:]],[0-9a-zA-Z]:匹配大小写字母和数字

[[:space:]]:匹配空白字符

[[:punct:]]:匹配标点符号

示例：

# 过滤/etc/passwd文件中含有任意单个数字的行

[root@localhost ~]# grep [0-9] /etc/passwd 显示结果如下：

通过显示的结果，倒数的第1行和第4行加亮显示的字符串超过单个数字，这说明正则表达式工作在贪婪模式下，即，会一直往后匹配并显示

# 过滤/etc/passwd文件中含有以字母开头以数字结尾，当中有三个任意字符的行

[root@localhost ~]# grep [[:alpha:]]...[[:digit:]] /etc/passwd 部分结果如下：

1.2次数匹配

* ：匹配任意长度

.* ：任意长度的任意字符

\?：0次或1次，表示次元字符左侧的字符有一个或没有都可匹配

\+：表示匹配一次或一次以上；

\{m\}：表示字符至少出现m次；

\{m,n\}：表示匹配至少m次，至多n次；

\{0,n\}：匹配左侧字符，最多出现n次；

\{m,\}：匹配左侧字符，最少出现m次；

示例：

ab*c：以a开头，以c结尾，中间为任意次数的b

a.*c：以a开头，以c结尾，中间为任意字符任意次数（包括没有）

ab\?c：以a开头，以c结尾，中间为一个b或什么都没有

ab\+c: 以a开头，以c结尾,中间为一个b或多个

ab\{2,5\}c：以a开头，以c结尾，中间b出现的次数最少2次最多5次

# 显示，/etc/passwd文件中，含有以字母开头出现两次c再出现若干任意字符，最后以t结尾的行

[root@localhost ~]# grep "[[:alpha:]]c\{2\}.*t" /etc/passwd 结果如下：

又一次体会了贪婪模式

1.3位置铆定

^: 行首锚定；用于模式的最左侧；

$: 行尾锚定；用于模式的最右侧；

^$: 空白行；

单词铆定

\<, \b: 词首锚定；用于表示单词的模式的左侧；

\>, \b：词尾锚定；用于表示单词的模式的右侧；

示例：

^root :行首出现root的行

bash$：行尾出现bash的行

\<ro : 词首为ro

ot\>:词尾为ot

#显示，/etc/passwd文件中，单词词首为a 且此单词出现在行首的行

[root@localhost ~]# grep "^\<a" /etc/passwd 结果如下：

1.4分组

分组：，将多个字符当成一个字符对象进行操作

分组的小括号中的模式匹配到的内容，会在执行过程中被正则表达式引擎记录下来，并保存内置的变量中；这些变量分别是\1, \2, ...

\1: 从左侧起，第一个左括号，以及与之配对的右括号中间的模式所匹配到的内容；

\2：从左侧起，第二个左括号，以及与之配对的右括号中间的模式所匹配到的内容；

后向引用：使用变量引用前面的分组括号中的模式所匹配到的字符；

示例：

$ab$\{3\}c：ab出现3次以c结尾 abababc

$ab$\{2\}c\1：ab出现2次再跟一个c最后以$ab$结尾 abababcab

作业练习：

1、显示/etc/passwd文件中以bash结尾的行；

[root@localhost ~]# grep "bash$" /etc/passwd

2、显示/etc/passwd文件中的两位数或三位数；

[root@localhost ~]# grep "\<[[:digit:]]\{1,2\}\>" /etc/passwd

3、显示‘netstat -tan‘命令结果中以‘LISTEN’后跟0个、1个或多个空白字符结尾的行；

[root@localhost ~]# netstat -tan | grep "LISTEN[[:space:]]*"

4、添加用户bash，testbash, basher以及nologin用户(nologin用户的shell为/sbin/nologin)；而后找出/etc/passwd文件中用户名同shell名的行；

[root@localhost ~]# grep "^$\<.*\>$.*\1$" /etc/passwd

四扩展的正则表达式：

与正则表达式模式写法大致相同只有部分元字符写法略有不同，使用egrep命令或者grep -E

egrep用法及选项与grep相同；

扩展正则表达式的元字符：

1. 字符匹配：

.: 任意单个字符

[]: 匹配指定范围内字符

[^]: 匹配指定范围外的任意字符

2. 次数匹配：

*：任意次数

?: 0次或1次；

+: 1次以上；

{m}: 精确匹配m次；

{m,n}: 至少m次，至多n次；

3. 锚定：

^: 锚定行首

$: 锚定行尾

\<, \b ：铆定词首

\>, \b ：铆定词尾

4. 分组：()

后向引用：\1, \2, ...

5. 或者：

a|b ：匹配a或者b，任意匹配其中的一个；

C|cat：不表示Cat或cat，而表示C或cat；要写成(C|c)at

作业练习：

1、显示当前系统上root、centos或user1用户的默认的shell和UID；

[root@localhost ~]# cut -d ‘:‘ -f 1,3,7 /etc/passwd | grep -E "^(root|centos|user1)\>"

2、找出/etc/rc.d/init.d/functions文件中某单词(单词中间可以存在下划线)后面跟着一组小括号的行；

[root@localhost ~]# grep -E "^(\<[[:alnum:]]*\>|\<[[:alnum:]]*_[[:alnum:]]*\>)" /etc/rc.d/init.d/functions

3、使用echo输出一个路径，而后egrep找出其路径基名；进一步地：使用egrep取出其目录名；

[root@localhost ~]# echo "/etc/sysconfig/" | egrep -o "([^/]+|[^/]+/)$"

4、找出ifconfig命令执行结果中1-255之间的数字；

[root@localhost ~]# ifconfig | grep -E "\<([0-9]{1,2}|[1][0-9]{2}|[1-2][1-5][1-5])\>"

正则表达式

标签：文本文件 linux 表达式字符串通用

原文地址：http://velen38.blog.51cto.com/911313/1690581

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行