标签:基础正则表达式
基础正则表达式:元字符意义 BRE (basic regular expression)
正则表达式实际就是一些特殊字符,赋予了它特定的含义。
1)^word 匹配以word开头的内容。vi、vim编辑器里^代表一行的开头
2)word$ 匹配以word结尾的内容。vi、vim编辑器里^代表一行的结尾
3) ^$ 表示空行,
4) . 代表且只能代表任意一个字符。不匹配空行
5) \ 例\.就只代表点本身,转义符号,让有特殊身份意义的字符,脱掉马甲,还原本身
6) * 重复0个或多个前面的一个字符,例 0* 匹配有任意多个0 的行
7) .* 匹配所有字符。延伸 ^.* 以任意多个字符开头。 .*$以任意多个而字符结尾
8)[abc] 匹配字符集合内的任意一个字符[a-zA-Z],[0-9]
9)[^abc] 匹配不包含^后的任意一个字符的内容。
中括号里的^为取反,注意和中括号外面以。。。开头区别开来
10) a \{n,m\} 重复n到m次,前一个重复的字符,如果用egrep/sed -r 可以去掉斜线
a\{n,\} 重复至少n次,前一个重复的字符。如果用egrep/ sed -r 可以去掉斜线
a\{n\} 重复n次,前一个重复的字符。如果用egrep/ sed -r 可以去掉斜线
a\{,m\} 重复至多m次
注意:egrep或sed -r 过滤一般特殊字符可以不转义。
正则表达式 | 描述 | 示例 |
\ | 转义符,将特殊字符进行转义,忽略其特殊意义 | a\.b匹配a.b,但不能匹配ajb,.被转义为特殊意义 |
^ | 匹配行首,awk中,^则是匹配字符串的开始 | ^tux匹配以tux开头的行 |
$ | 匹配行尾,awk中,$则是匹配字符串的结尾 | tux$匹配以tux结尾的行 |
. | 匹配除换行符\n之外的任意单个字符,awk则中可以 | ab.匹配abc或bad,不可匹配abcd或abde,只能匹配单字符 |
[ ] | 匹配包含在[字符]之中的任意一个字符 | coo[kl]可以匹配cook或cool |
[^ ] | 匹配[^字符]之外的任意一个字符 | 123[^45]不可以匹配1234或1235,1236、1237都可以 |
[ - ] | 匹配[]中指定范围内的任意一个字符,要写成递增 | [0-9]可以匹配1、2或3等其中任意一个数字 |
? | 匹配之前的项1次或者0次 | colou?r可以匹配color或者colour,不能匹配colouur |
+ | 匹配之前的项1次或者多次 | sa-6+匹配sa-6、sa-666,不能匹配sa- |
* | 匹配之前的项0次或者多次 | co*l匹配cl、col、cool、coool等 |
() | 匹配表达式,创建一个用于匹配的子串 | ma(tri)?匹配max或maxtrix |
{ n } | 匹配之前的项n次,n是可以为0的正整数 | [0-9]{3}匹配任意一个三位数,可以扩展为[0-9][0-9][0-9] |
{n,} | 之前的项至少需要匹配n次 | [0-9]{2,}匹配任意一个两位数或更多位数 |
{n,m} | 指定之前的项至少匹配n次,最多匹配m次,n<=m | [0-9]{2,5}匹配从两位数到五位数之间的任意一个数字 |
| | 交替匹配|两边的任意一项 | ab(c|d)匹配abc或abd |
POSIX字符类
POSIX字符类是一个形如[:...:]的特殊元序列(meta sequence),他可以用于匹配特定的字符范围。
正则表达式 | 描述 | 示例 |
[:alnum:] | 匹配任意一个字母或数字字符 | [[:alnum:]]+ |
[:alpha:] | 匹配任意一个字母字符(包括大小写字母) | [[:alpha:]]{4} |
[:blank:] | 空格与制表符(横向和纵向) | [[:blank:]]* |
[:digit:] | 匹配任意一个数字字符 | [[:digit:]]? |
[:lower:] | 匹配小写字母 | [[:lower:]]{5,} |
[:upper:] | 匹配大写字母 | ([[:upper:]]+)? |
[:punct:] | 匹配标点符号 | [[:punct:]] |
[:space:] | 匹配一个包括换行符、回车等在内的所有空白符 | [[:space:]]+ |
[:graph:] | 匹配任何一个可以看得见的且可以打印的字符 | [[:graph:]] |
[:xdigit:] | 任何一个十六进制数(即:0-9,a-f,A-F) | [[:xdigit:]]+ |
[:cntrl:] | 任何一个控制字符(ASCII字符集中的前32个字符) | [[:cntrl:]] |
[:print:] | 任何一个可以打印的字符 | [[:print:]] |
元字符
元字符(meta character)是一种Perl风格的正则表达式,只有一部分文本处理工具支持它,并不是所有的文本处理工具都支持。
正则表达式 | 描述 | 示例 |
\b | 单词边界 | \bcool\b 匹配cool,不匹配coolant |
\B | 非单词边界 | cool\B 匹配coolant,不匹配cool |
\d | 单个数字字符 | b\db 匹配b2b,不匹配bcb |
\D | 单个非数字字符 | b\Db 匹配bcb,不匹配b2b |
\w | 单个单词字符(字母、数字与_) | \w 匹配1或a,不匹配& |
\W | 单个非单词字符 | \W 匹配&,不匹配1或a |
\n | 换行符 | \n 匹配一个新行 |
\s | 单个空白字符 | x\sx 匹配x x,不匹配xx |
\S | 单个非空白字符 | x\S\x 匹配xkx,不匹配xx |
\r | 回车 | \r 匹配回车 |
\t | 横向制表符 | \t 匹配一个横向制表符 |
\v | 垂直制表符 | \v 匹配一个垂直制表符 |
\f | 换页符 | \f 匹配一个换页符 |
标签:基础正则表达式
原文地址:http://11836611.blog.51cto.com/11826611/1844080