说到正则表达式,大学的时候学编译原理的时候就遇到过,那个时候也没有引起重视,只是了解了一点,后来在做App的时候了解到这个只是点其实很重要的,无论是网站,还是App好多地方都用得到,以前每次都用到的时候在网上查找现成的,但是不能自己写出符合要要求的正则表达式,是一件很痛苦的事情。下面开始学习。
1,行定位符(^ 和 $)
行定位符就是用来描述字串的便捷。"^" 表示行的开始,"$" 表示行的结尾
如: ^Jack 表示以Jack开始的字符串 那么 "Jack is a hero" 就能够匹配 而 “The super man is Jack” 则不能匹配
如: Jack$ 表示以Jack结尾的字符串,那么“The super man is Jack” 就可以匹配
2、单词定界符 (\b ,\B)
如果要匹配一个完整的单词而不是一个单词的一部分,那么就需要用到单词界定符
如: \bwork\b 表示字符串中有work 这个单词 那么"I‘m work hard!"就可以匹配
如:\Bwork\B 表示字符串中不能有work这个单词 那么"I‘m work hard!"就不能够匹配
3、字符类 ([])
正则表达式是区分大小写的,如果要忽略大小写可使用方括号表达式"[]"。只要匹配福出现在方括号内,即可表示匹配成功。但是要注意一个方括号只能匹配一个字符。例如要匹配一个字符串ab不区分大小写,那么表达式应该如下 : [Aa][Bb] 这样就可以匹配ab的所有写法
4、选择字符 (|)
还有一种方法可以实现匹配一个字符串ab不区分大小写,就是使用选择字符(|)。该字符可以理解为“或”,那么表达式为: (A|a)(B|b)
5、连字符 (-)
变量的命名规则只能是以字母和下划线开头。但这样以来,如果要使用正则表达式来匹配变量名的第一个字母,要写为 [a,b,c,d...A,B,C,D...] 这无疑是非常麻烦的,正则表达式提供了连字符 “-”解决了这个问题。连字符可以表示字符的范围。如上面的例子可以写成[a-zA-Z]
6、排除字符 ([^])
‘^‘表示行的开头,而将这个字符放到方括号里表示排除的意思。 例如: [^a-zA-Z] 该表达式匹配的就是不以字母和下划线开头的变量名。
7、限定符 (? * + {n,m})
对于重复出现的字母或者字串,可以使用限定符来实现匹配。限定符主要有6种,如下表所示:
8、点字符 (.)
点字符(.) 可以匹配出除了换行符以外的任意的一个字符。 注意:除换行符以外的任意的一个字符
如匹配一个以a开始,b结尾的中间包含一个字符的单词。那么格式如下:^a.b$
9、转义字符(\)
正则表达式中的转义字符和php中的转义字符大同小异,都是将特殊字符(如:"." "?" "\")变为普通的字符。 就拿IP地址来说127.0.0.1 这样的格式如果不用转义字符 ,那么正则表达式的表达结果如下: [1-9]{1,3}(.[1-9]{1,3}){3} 但是这样显然不对,因为"." 可以配任意一个字符,这是就不仅仅会出现127.0.0.1 这样的IP,还会出现字母等字符,这样显然不对,这个时候转义字符就派上用场了, 有请转义字符闪亮登场 。 利用转义字符后的正则表达式是 [1-9]{1,3}(\.[1-9]{1,3}){3}
10、反斜线 (\)
(1)反斜线可以将一些不可打印的字符显示出来 如下表所示:
(2)反斜线还可以指定预定义字符集 如下表所示:
(3)反斜线还可以定义断言 具体如下表所示:
11、反向引用
反向引用就是利用子表达式的“记忆”功能来匹配连续出现的字串或字母。
例如: 如果要匹配两个连续的 ab,那么可以将ab作为一个分组,然后在后面加上"\1" 即可。 如下: (ab)\1
如果要匹配的字符串不固定,那么可以将括号内的字串写成正则表达式,如果有多个分组,那么可以使用"\1","\2" 来表示每个分组(顺序是从左到右)
如:([a-z])(A-Z)\1\2
除了可以用数字来表示分组外,还可以自己来指定分组名称 如:
(?P<subname>...)
如果要引用该分组 ,语法如下:
(?P = subname)
下面来重写一下表达式 ([a-z])(A-Z)\1\2 为这两个分组分别命名,并反向引用他们,正则表达式如下:
(?P<fir>[a-z])(?P<sec>[A-Z])(?P=fir)(?P=sec)
理论知识我们就一块学习到这里吧,更多的操作会在PHP开发之正则表达式(二)中和大家分享
原文地址:http://blog.csdn.net/hanhailong18/article/details/44450353