正则表达式

时间：2019-05-26 19:56:37 阅读：136 评论：0 收藏：0 [点我收藏+]

标签：perl 宏定义就是不包含也有验证 awk 需要表达式

正则表达式

以前我们用grep在一个文件中找出包含某些字符串的行，比如在头文件中找出一个宏定义。其实grep还可以找出符合某个模式（Pattern）的一类字符串。

例如找出所有符合xxxxx@xxxx.xxx模式的字符串（也就是email地址），要求x字符可以是字母、数字、下划线、小数点或减号，email地址的每一部分可以有一个或多个x字符，

例如abc.d@ef.com、1_2@987-6.54，当然符合这个模式的不全是合法的email地址，但至少可以做一次初步筛选，筛掉a.b、c@d等肯定不是email地址的字符串。

再比如，找出所有符合yyy.yyy.yyy.yyy模式的字符串（也就是IP地址），要求y是0-9的数字，IP地址的每一部分可以有1-3个y字符。

如果要用grep查找一个模式，如何表示这个模式，这一类字符串，而不是一个特定的字符串呢？

从这两个简单的例子可以看出，要表示一个模式至少应该包含以下信息：

字符类（Character Class）：如上例的x和y，它们在模式中表示一个字符，但是取值范围是一类字符中的任意一个。

数量限定符（Quantifier）： 邮件地址的每一部分可以有一个或多个x字符，IP地址的每一部分可以有1-3个y字符各种字符类以及普通字符之间的位置关系：

例如邮件地址分三部分，用普通字符@和.隔开，IP地址分四部分，用.隔开，每一部分都可以用字符类和数量限定符描述。为了表示位置关系，

还有位置限定符（Anchor）的概念，将在下面介绍。规定一些特殊语法表示字符类、数量限定符和位置关系，然后用这些特殊语法和普通字符一起表示一个模式，

这就是正则表达式（Regular Expression）。例如email地址的正则表达式可以写成 [a-zA-Z0-9.-]+@[a-zA-Z0-9.-]+.[a-zA-Z0-9_.-]+，

IP地址的正则表达式可以写成 [0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}。

我们先看看正则表达式在grep中怎么用。例如有这样一个文本文件testfile：

192.168.1.1
1234.234.04.5678
123.4234.045.678
abcde

查找其中包含IP地址的行：
$ egrep ‘[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}‘ testfile

192.168.1.1
1234.234.04.5678

egrep相当于grep -E，表示采用Extended正则表达式语法。grep的正则表达式有Basic和Extended两种规范。

另外还有fgrep命令，相当于grep-F，表示只搜索固定字符串而不搜索正则表达式模式，不会按正则表达式的语法解释后面的参数。

注意正则表达式参数用单引号括起来了，因为正则表达式中用到的很多特殊字符在Shell中也有特殊含义（例如），

只有用单引号括起来才能保证这些字符原封不动地传给grep命令，而不会被Shell解释掉。

192.168.1.1符合上述模式，由三个.隔开的四段组成，每段都是1到3个数字，所以这一行被找出来了，可为什么1234.234.04.5678也被找出来了呢？

因为grep找的是包含某一模式的行，这一行包含一个符合模式的字符串234.234.04.567。相反，123.4234.045.678这一行不包含符合模式的字符串，所以不会被找出来。

grep是一种查找过滤工具，正则表达式在grep中用来查找符合模式的字符串。其实正则表达式还有一个重要的应用是验证用户输入是否合法，

例如用户通过网页表单提交自己的email地址，就需要用程序验证一下是不是合法的email地址，这个工作可以在网页的Javascript中做，

也可以在网站后台的程序中做，例如PHP‘Perl、Python、Ruby、Java或C，所有这些语言都支持正则表达式，

可以说，目前不支持正则表达式的编程语言实在很少见。除了编程语言之外，很多UNIX命令和工具也都支持正则表达式，例如grep、vi、sed、awk、emacs等等。

“正则表达式”就像“变量”一样，它是一个广泛的概念，而不是某一种工具或编程语言的特性。

基本语法

我们知道C的变量和Shell脚本变量的定义和使用方法很不相同，表达能力也不相同，C的变量有各种类型，而Shell脚本变量都是字符串。

同样道理，各种工具和编程语言所使用的正则表达式规范的语法并不相同，表达能力也各不相同，

有的正则表达式规范引入很多扩展，能表达更复杂的模式，但各种正则表达式规范的基本概念都是相通的。

egrep(1)所使用的正则表达式，它大致上符合POSIX正则表达式规范，详见regex(7)（看这个man page对你的英文绝对是很好的锻炼）。

希望读者仿照上一节的例子，一边学习语法，一边用egrep命令做实验。

字符类

字符　　　　　　含义　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　举例

. 　　　　匹配任意一个字符　　　　　　　　　　　　　　　　　　　　　　　　 abc.可以匹配abcd、abc9等

[] 　　　　匹配括号中的任意一个字符　　　　　　　　　　　　　　　　　　　　 [abc]d可以匹配ad、bd或cd

- 　　　　在[]括号内表示字符范围　　　　　　　　　　　　　　　　　　　　　　[0-9a-fA-F]可以匹配一位十六进制数字

^　　　　 位于[]括号内的开头，匹配除括号中的字符之外的任意一个字符　　　　　[^xy]匹配除xy之外的任一字符，因此[^xy]1可以匹配a1、b1但不匹配x1、y1

[[:xxx:]]　　 grep工具预定义的一些命名字符类　　　　　　　　　　　　　　　　　 [[:alpha:]]匹配一个字母，[[:digit:]]匹配一个数字

数量限定符

字符 　　　　　　含义 　　　　　　　　　　　　　　　　　　　　举例
? 　　　　紧跟在它前面的单元应匹配零次或一次 　　　　[0-9]?\.[0-9]匹配0.0、2.3、.5等，由于.在正则表达式中是一个特殊字符，所以需要用\转义一下，取字面值
+　　　　 紧跟在它前面的单元应匹配一次或多次 　　　　[a-zA-Z0-9_.-]+@[a-zA-Z0-9_.-]+\.[a-zA-Z0-9_.-]+匹配email地址
* 　　　　紧跟在它前面的单元应匹配零次或多次 　　　　[0-9][0-9]*匹配至少一位数字，等价于[0-9]+，[a-zA-Z_]+[azA-Z_0-9]*匹配C语言的标识符
{N}　　　 紧跟在它前面的单元应精确匹配N次　　　　　　 [1-9][0-9]{2}匹配从100到999的整数
{N,}　　 紧跟在它前面的单元应匹配至少N次 　　　　　　[1-9][0-9]{2,}匹配三位以上（含三位）的整数
{,M} 　　紧跟在它前面的单元应匹配最多M次 　　　　　　[0-9]{,1}相当于[0-9]?
{N,M} 　　紧跟在它前面的单元应匹配至少N次，最多M次 　　[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}匹配IP地址

再次注意grep找的是包含某一模式的行，而不是完全匹配某一模式的行。再举个例子，如果文本文件的内容是

aaabc
aad
efg

查找a*这个模式的结果是三行都被找出来了

$ egrep ‘a*‘ testfile
aabc
aad
efg

a匹配0个或多个a，而第三行包含0个a，所以也包含了这一模式。单独用a这样的正则表达式做查找没什么意义，一般是把a*作为正则表达式的一部分来用。

位置限定符

字符 　　　　　　含义　　　　　　　　　　　　 　　　　举例
^ 　　　　匹配行首的位置 　　　　　　　　^Content匹配位于一行开头的Content
$ 　　　　匹配行末的位置 　　　　　　　　;$匹配位于一行结尾的;号，^$匹配空行
\< 　　　 匹配单词开头的位置 　　　　　　\<th匹配... this，但不匹配ethernet、tenth
\> 　　  匹配单词结尾的位置　　 　　　　p\>匹配leap ...，但不匹配parent、sleepy
\b 　　  匹配单词开头或结尾的位置 　　 \bat\b匹配... at ...，但不匹配cat、atexit、batch
\B 　　  匹配非单词开头和结尾的位置 　　\Bat\B匹配battery，但不匹配... attend、hat ...

含义	举例
匹配行首的位置	^Content匹配位于一行开头的Content
匹配行末的位置	;$匹配位于一行结尾的;号，^$匹配空行
匹配单词开头的位置	\<th匹配... this，但不匹配ethernet、tenth
匹配单词结尾的位置	p\>匹配leap ...，但不匹配parent、sleepy
匹配单词开头或结尾的位置	\bat\b匹配... at ...，但不匹配cat、atexit、batch
匹配非单词开头和结尾的位置	\Bat\B匹配battery，但不匹配... attend、hat ...

位置限定符可以帮助grep更准确地查找，例如上一节我们用[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}查找IP地址，找到这两行
192.168.1.1
1234.234.04.5678

如果用^[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}$查找，就可以把1234.234.04.5678这一行过滤掉了。

特殊字符

所以需要用\转义一下，取字面值 + 紧跟在它前面的单元应匹配一次或多次 [a-zA-Z0-9_.-]+@[a-zA-Z0-9_.-]+\.[a-zA-Z0-9_.-]+匹配email地址

其它特殊字符

字符　　　　　　　　含义　　　　　　　　　　　　　　　　　　　　　　　　举例

\ 　　　转义字符，普通字符转义为特殊字符，特殊字符转义为普通字符　　普通字符<写成\<表示单词开头的位置，特殊字符.写成\.以及\写成\\就当作普通字符来匹配

() 　　将正则表达式的一部分括起来组成一个单元，　　　　　　　　　　可以对整个单元使用数量限定符 ([0-9]{1,3}\.){3}[0-9]{1,3}匹配IP地址

|　　连接两个子表达式，表示或的关系　　　　　　　　　　　　　　　　n(o|either)匹配no或neither

以上介绍的是grep正则表达式的Extended规范，Basic规范也有这些语法，只是字符?+{}|()应解释为普通字符，要表示上述特殊含义则需要加\转

如果用grep而不是egrep，并且不加-E参数，则应该遵照Basic规范来写正则表达式。

正则表达式

标签：perl 宏定义就是不包含也有验证 awk 需要表达式

原文地址：https://www.cnblogs.com/xiangtingshen/p/10927020.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行