标签:
正则表达式?什么是正则表达式?
百度百科给出的解释是这样的:正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。
根据我的学习,我理解的正则表达式是:一个字符串,这个字符串用来描述我们所制定的规则。
学习正则表达式,就好像学习一门新的语言,只是这种语言是用来制定规则的。学习一门新语言,我们一般从helloworld开始。
例如我们在要一个很长的字符串中找到hellowrold,那么我们就可以使用正则表达式 helloworld 。helloworld这个正则表达式是最简单类型的正则表达式了,它会匹配这样的字符串:按着helloworld这样的顺序排列的字符串。
这里介绍一下正则表达式中的一些特殊代码,也叫做元字符(metacharacter)。在我看来,这些元字符类似我们OC语言中的关键字。(当然正则表达式的与字符肯定不止这么点,但一下的我觉得已经够我们开发使用的了)
\b:代表着单词的开头或结尾,作为单词的分界处。
例如:正则表达式 h i会匹配到包含有 hi 这两个连续字母的单词,像history、him。而如果加上\b,是正则表达式变成这样 \bhi\b那么就只会匹配到 hi 这个单词
. (英语中的句号): 匹配除了换行符以外的任意字符。
例如:正则表达式 \ba.\b(\b是代表单词开头或结束的元字符,上面已经介绍) 匹配以 前面一个是字符a,后面是一个除换行符意外的任意字符的字符串,像aa、ab、a_、a+ 这些都可以匹配到
\d:匹配一个数字(0-9)
例如:正则表达式 0\d\d\d\d\9 匹配以0开都,以9结尾的一串6个数字的数字串,中间的四个数字可以是0到9中任意的数字,像056789、043629等等
\w:匹配字母或数字或下划线或汉字
例如:正则表达式 \w\w\w\w 匹配任意的四个字母或数字或下划线或汉字,像中文中的成语:十动然拒、普大喜奔 这种类型的,或者是:main、void 这种四个字母的单词,或者是:5_a、壕b6 这种杂交的类型
\s:匹配任意的空白字符(上面说了这么多,这个没什么好说的了,应该挺好理解的把)
ps:上面的介绍的元字符是用来匹配特殊的格式或者字符的,而下面的几个则用来匹配数量的
*(星号) :重复零次或多次
例如:正则表达式 a\d 匹配以字符a开头的,后面跟着0个或者多个数字的字符串:a、a1、a94803748 这些都是该正则表达式匹配的字符串;
+:重复1次或多次
例如:正则表达式 a\d+ 匹配的是以字符a开头的,后面跟着1个或多个数字的字符串:a3、a5856306 ,但是不能匹配 a 应为+代表最少要有一个;
?:重复0次或1次
和上面两个类似,表达式 a\d? 匹配的是以字符a开头的,后面跟着0个或一个数字的字符串:a、a5、a9
{n}:重复n次
例如:我们的身份证号,一般来说是18位的数字(实际上身份证的验证要复杂得多,这里只是举个栗子),那么我们可以写这么一个正则表达式来匹配它:\d{18} ,又例如我们银行卡的取款密码,一般来说是6位的数字,那么我们就可以写:\d{6} 这样的正则表达式来匹配。
{n,}:重复n次或更多次(即最少都要重复n次)
例如:现在很多网站的账号注册时,密码都要求不少于多少个数,那么我们就可以这么写:\d{6,} ,这是不少于6位的数字
{n,m}:重复n到m次(最少重复n次,最多重复m次)
例如:QQ的账号要求是5到12位, 那么可以用正则表达式:\d{5,12} 来匹配
好了,以上介绍到得元字符基本上可以满足我们开发要求了。
接着还有几点是要注意的:
[]的使用:
[abcdef] 这个正则表达式匹配abcdef中其中一个字母,[.?!]这个正则表达式匹配里面三个标点符号中的其中一个。我们也可以用来指定一个范围,[0-9]匹配0到9这段区间中任意一个数字(包括0和9)。[a-z]这里就是匹配a到z这段区间其中一个字母。我们还可以这几个范围连在一起使用,比如[0-9a-zA-Z]就是匹配 0到9、a到z、A到Z 这三个区间的其中一个区间的其中一个字符或数字。
分支条件:有时候,当我们要制定的规则有多种形式的时候,所以我们需要一个“或”符号来连接两种形式。
举个栗子:我们的电话号码可以用两种形式表示:020-88888888 (020)88888888。要让让这两种形式的写法都可以匹配,我们就要写两种形式的正则表达式,匹配020-88888888 的正则表达式可以写为:0\d{2}-\d{8};匹配(020)88888888的正则表达式我们可以写成:(0\d{2})\d{8}。如果要使这两个正则表达式一起匹配一个字符串,那么就要用到“或”符号来连接他们了:0\d{2}-\d{8}|(0\d{2})\d{8} 。
ps:其他语言我不是很清楚,但是OC中“|”运算符是判断前面一个表达式,如果前面一个表达式是“true”的话,后面的运算就不会继续进行下去了,而正则表达式的“|”运算符也是一样的,只要前面的表达式是ture得话,就不会继续判断下面的运算了。比如说:\d{3}|\d{3}-\d{4} 这个正则表达式,因为前面的\d{3}部分和后面\d{3}部分一样,当字符串 111-11匹配时候只会匹配到前面的三位,后面的“-11”都是匹配不到的。如果你还没有打算向iOS以外的方向发展,我建议这个作为了解就好了。
分组:
这个比较容易,就是用圆括号对“()”将其中某些语句括起来作为一个整体。
例如:[a-zA-Z0-9]+@[a-zA-Z0-9]+(.[a-zA-Z0-9]{2,4}){1,2} 这个是一个不完善的邮箱匹配的正则表达式,式子后面部分“(.[a-zA-Z0-9]{2,4}){1,2}” 可以看到,圆括号括起来的部分“.[a-zA-Z0-9]{2,4})”这里表示他们是一个整体,后面的“{1,2}”重复1或者两次,是相对于圆括号这个整体来说的。整个正则表达式匹配像这样的邮箱:abc12345@qq.com 或者匹配这样的:980a@126.com.cn 这样的邮箱(虽然我不知道这个邮箱后缀是否存在,但是这些都不是重点)。
到这里,我们可以来看2个例子,印证一下上面所讲的东西:---------------------------------
(\d{1,3}.){3}\d{1,3}:是一个简单的IP地址匹配表达式。要理解这个表达式,请按下列顺序分析它:\d{1,3}匹配1到3位的数字,(\d{1,3}.){3}匹配三位数字加上一个英文句号(这个整体也就是这个分组)重复3次,最后再加上一个一到三位的数字(\d{1,3})。(这个正则表达式其实并不准确,准确的IP地址描述是这样的:((2[0-4]\d|25[0-5]|[01]?\d\d?).){3}(2[0-4]\d|25[0-5]|[01]?\d\d?))
(?0\d{2})?[- ]?\d{8}|0\d{2}[- ]?\d{8}这个表达式匹配3位区号的电话号码,其中区号可以用小括号括起来,也可以不用,区号与本地号间可以用连字号或空格间隔,也可以没有间隔。
如果上面两个例子,你可以自己分析出来,那么基本上够了。如果你想了解更多的有关正则表达式的知识,这里已经帮不到你了,但是度娘肯定对你有帮助。http://www.jb51.net/tools/zhengze.html 而我自己的话是在这个网址了解的,有兴趣可以去看一下。
最后差点忘了,还有一点:字符转移的
如果你想查找元字符本身的话,比如你查找.,或者*,就出现了问题:你没办法指定它们,因为它们会被解释成别的意思。这时你就得使用\来取消这些字符的特殊意义。因此,你应该使用.和*。当然,要查找\本身,你也得用\.
例如:deerchao.net匹配deerchao.net,C:\Windows匹配C:\Windows。
如果匹配一个数字串是不是电话号码, 可以给nsobject写一个类目, 添加以下方法:
- (BOOL)isPhoneNumberExistWithPhoneNumber:(NSString *)phoneNumber { NSString *testStr = phoneNumber; NSString *regex = @"^1(3[0-9]|5[0-35-9]|8[0-25-9]|70|77)\\d{8}$"; NSPredicate *pred = [NSPredicate predicateWithFormat:@"SELF MATCHES%@", regex]; BOOL isMatch = [pred evaluateWithObject:testStr]; return isMatch; }
标签:
原文地址:http://www.cnblogs.com/mafeng/p/5815931.html