正则表达式基础、原理及优化

时间：2017-07-16 23:27:27 阅读：239 评论：0 收藏：0 [点我收藏+]

前言

　　正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。在很多文本编辑器里，正则表达式通常被用来检索、替换那些匹配某个模式的文本。简单说就是一个特殊的字符串去匹配一个字符串。定义了一些规则，用于匹配满足这些规则的字符串。

　　对于正则表达式应该很多人第一感觉就是很难，完全没有规律，看不懂。
　　我觉得可能有以下几个原因：
　　1、读不懂。
　　　　各种不同的字符组合一起，难以理解。确实，对于熟悉正则表达式的人来说，一个稍微长点的正则表达式想要理解起来，可能也要花费一定的功夫。可读性差是正则表达式的一个很大的缺点。
　　　　如：[\w!#$%&‘*+/=?^_`{|}~-]+(?:\.[\w!#$%&‘*+/=?^_`{|}~-]+)*@(?:[\w](?:[\w-]*[\w])?\.)+[\w](?:[\w-]*[\w])?
　　2、写不出来
　　　　各种标点符合，完全不知道什么意思，没法写。
　　3、很多工具，很多编程语言都有正则表达式，而往往这些正则表达式存在细微的差别。
　　4、写出来的正则表达式有问题，匹配了非期望的字符串，甚至把期望的字符串给遗漏了。

　　另外通常情况下正则的速度确实相对慢一些。但是很多情况下正则表达式太慢是由于写的正则表达式有问题，没有优化。我并不推荐大量使用正则表达式，有些情况下又非用不可。（想检测一个字符串中是否含有the， \bthe\b）

　　关于匹配

　　本教程所说的匹配成功，并不是指正则表达式完全匹配目标字符串，指正则表达式能匹配目标字符串的部分。无特殊说明，仅匹配一次

基本概念

　　如果想找出当前目录所有的.txt文件。用过windows或者linux命令行的应该知道使用“dir *.txt 、ls*.txt”去查找。为什么这个字符串能找到所有的txt文件呢？因为*这个字符有特殊的含义，表示任意文本。那么.txt有什么特殊含义呢？没有什么含义，就是表示他们自身。所有*.txt表示任意文本开通，但是以.txt结尾就行。

　　正则表达式有两种字符组成（是不是很简单），如上面例子中的*，属于特殊字符，也称之为元字符，表示的不是字面上的含义；还有一种就是上面说的.txt，表示普通文本字符。
　　正则表达式之所以强大，靠的就是元字符提供了强大的描述能力。下面介绍一些常用的元字符。

1、行的起始^和结束$（字符串的起始和结束）

　　^表示一行的起始，$表示一行的结束。这是最简单的两个元字符了。
　　例如cat可以匹配所有cat单词，以及包含cat字符的单词。^cat只能找到行首的cat，同样cat$表示行尾的cat。简单来说^和$匹配的是一个位置，并不匹配任何字符。元字符不仅可以匹配字符，还可以匹配特定位置。

　　关于正则表达式的理解

　　1、^cat匹配以cat开头的行
　　2、^cat匹配的是以c作为一行的第一个字符，紧接着一个a，接着一个t的文本
　　这两种结果并没有什么差异，但是第二种更符合正则表达式的逻辑，对后面分析会有帮助。
　　^cat$ 匹配的是行开头，然后是一个c，接着一个a，接着一个t，然后是行尾。
　　^$ 行开头，然后行结尾（空行）
　　^ 行开头（没有特殊意义，每行都有开头，当然可以用来统计行数）
　　注意，对于一个字符串来说，如java或者python中^和$表示字符串的起始和结束，如^cat$不能匹配"cat\ncat"

2、字符组[]

　　比如我们搜索单词grey（灰色），但是也有可能写作gray。我们怎么用正则表达式同时能匹配上grey和gray呢？
　　这时可以考虑使用字符组[]，用中括号将某处期望出现的字符括起来。[ea]表示匹配e或者a，gr[ea]p的意思是：先找到g，跟着一个r，然后是一个a或者e，最后是一个y。
　　可以看出在字符组外，普通字符都是（接下来是）的意思，首先匹配g，接下来是r等等。但是在字符组内是完全不一样的，表示的意思是或，就是指必须匹配字符组中的一个字符，仅只能匹配其中一个。如这个表达式并不能匹配greay
　　<H[123456]>可以用来匹配<H1>、<H2>等一直到<H6>，注意<>并不是元字符。

　　字符组元字符

　　连字符-
　　上面的<H[123456]>可以写成<H[1-6]>，是等效的。-连字符表示一个范围，表示字符组内的字符是1到6，包括1和6(和通常编程里面的范围不太一样)。就是指这个字符在字符组内才是元字符，否则就是普通字符或者其他意义的元字符。同样的，反过来，字符组外的元字符在字符组内就不是元字符了，或者是不同意义的元字符。
　　[0-9A-Za-z]　　支持多重范围，表示可以匹配0-9，A-Z，a-z中的任意一个字符
　　[0-9a-zA-Z]　　顺序也可以颠倒(0-9不能颠倒)
　　[0-9a-zA-Z_!.?]　　可以和普通文本结合起来。
　　注意：-连号只有出现在字符组中字符中间才算连字符，出现在开头就不算了。（出现在结尾呢？当然也不是字符组元字符了）

　　排除型字符 [^...]

　　[^...]，字符组中的^如果出现在第一个位置，也是一个字符组元字符。匹配的是所有没有被字符组列出来的任何字符。简单说就是表示排除的意思，不希望匹配的字符。
　　例如：例如英文单词中，q后面通常跟的是字母是u，很奇怪，我想找出q后面不是u的单词怎么办? q[^u].表示的就是匹配的是一个，q然后一个非u的字符。我们发现q和Iraq没有被匹配上。
　　注意：匹配一个没有列出的字符，而不是不要匹配列出的字符。看起来差不多，但是有些细微差别。重点在于q后面需要匹配一个字符，排除型字符组也需要匹配一个字符。

3、用点号匹配任意字符

　　例如：对于这三个日期，2017-07-12、2017.07.12、2017/07/12，利用上面学过的元字符，可以表示为：2017[-./]07[-./]12。注意：虽然可以匹配上面的三个字符串，但也会匹配一些非法的日期如2017/07.12等。
　　注意：编写正则表达式一定要和实际应用环境结合起来。比如只是想相对精确的找出2017-07-12这个日期，那么用这个表达式就可以了。如果你的应用中只接受上面三种格式，其他格式都是错误的，你需要精确的匹配日期。那么上面的正则表达式就不能满足要求了。第一种，只是相对精确的匹配目标字符串，只要目标字符串使我们想要的，那么一定匹配到，可以容许少量的非法字符串。第二种就是精确匹配期望的字符串，不要匹配不期望的字符串。理想情况下正则表达式都是第二种，但是这种正则表达式会更难写一点，有时候也不一定能写出来。需要在复杂性和完整性之前取得平衡。
　　再稍微不精确一点，可以使用2017.07.12来进行匹配。这里的.点号就不是字面上的意思了，它是一个元字符，表示匹配任意单个字符（通常不匹配换行符\n）

4、多选结构 |

　　多选结构是用来匹配任意子表达式，用这个符号“|”表示，是或的意思。它可以把不同的子表达式组合成一个总的表达式，而这个总的表达式可以匹配任意的子表达式。如上面的日期的例子：如果想精确匹配，正则表达式可以这么写2017-07-12|2017\.07\.12|2017/07/12。它是把三个子表达式组合起来了，可以匹配任意一个表达式。注意.之前有反斜杠，因为.号是元字符，反斜杠可以把元字符变成原始的含义。
　　这个和字符组是类似的，都是表示或的意思，字符组只能选择单个字符，多选结构可以选择一个字符串。gr[ea]y也可以用多选结构来写，grey|gray。还可以简写成gr(e|a)y。可以用括号来限定多选的范围，括号也是元字符。
　　注意：多选结构与其他元字符一起使用，一定要注意他的使用范围。必要时用括号括起来。
　　^From|Subject|Date:，我们可能期望的是行起始跟着From或者Subject或者Date，然后后面接着一个:。^(From|Subject|Date):才能完全匹配我们的期望字符串。

5、单词分界符 \b

　　b本身不是元字符，但是通过反斜杠转义后变成了元字符。表示的是一个单词的分界符。它匹配的也是一个位置。\bcat\b就能匹配It is a cat.中cat单词了，cats之列的就匹配不上。\ba通常用来表示a的前面不是字母和数字。

6、可选项元素 ?

　　对于colour(颜色, 英式)，同样存在color（美式）。我们需要匹配这两种格式。我们使用了colo(r|ur)，但是我们还可以更简单点。
　　colou?r可以解决这个问题。?表示的意思就是可选项，它加在一个字符后面，表示他允许出现这个字符，当然也可以不出现。简单来说就是匹配0个或者1个字符，优先匹配1个字符。如果它不是跟着字符后面，可能表示其他含义。
　　它只作用于紧邻的字符。上述正则表达式的意思是匹配一个 c，然后是o，然后是l，然后是o，然后是u?，然后是r。其中u?总是可以匹配成功的，如果出现u，就匹配u，如果没有，就什么都不匹配。也就是说，不管u存不存在，u?都是匹配成功的。例如对于这个例子，semicolon，首先是一个c，接着一个o，接着一个l，接着一个u?，虽然单词这里没有u，u?也是匹配成功的。到目前为止colou?已经匹配了colo这四个字符了，接着后面跟着一个r，但是r不能匹配n，所以最终匹配失败了。

　　字符串July 4th和July 4可以用这个正则July 4(th)?来匹配，括号可以限定？的作用范围，其实括号的一个主要作用就是限制所以范围。

7、其他量词* + 区间{min,max}

　　加好+ ，星号 * 和?很类似。并不单独使用，而是作用在其他字符后面，限定个数使用。
　　* 出现0次或更多次。下限0次，无上限。含义是匹配尽可能多的次数，如果实在无法匹配，那也没有关系。
　　+ 出现1次或更多次。下限1次，无上限。匹配尽可能多的次数，但如果一次都匹配不了，那么久匹配失败。

　　例如：a* a? a+分别匹配下面这三个字符串

　　aaaab：a*匹配了aaaa；a?匹配了a；a+匹配了aaaa。（a?只匹配第一个a，因为我们这里讨论的是匹配一次就结束匹配。）

　　ab： a*匹配了a；a?匹配了a；a+匹配了a。

　　b：a*选择匹配0个字符串，匹配成功了。a?同样选择匹配0个字符，也匹配成功了；a+只要需要匹配一个a，这里没有a，所以匹配失败了。

　　注意：*和？一样是永远不会匹配失败的，只是匹配的内容不一样。
　　? * +可以统称为量词，他们的作用是限定所所用元素的匹配次数。量词是贪婪的，他会匹配尽可能多的字符，直到无法匹配。

　　规定出现的次数的范围：区间{min,max}
　　{min,max},至少出现min次，最多出现max次。

　　{min, }　　max可以省略，表示最少出现minci，无上限。

　　{num}　　正好出现num次。
　　例如：　　a{1,5}，a至少出现1次，最多出现5次。

　　注意：量词和区间范围都是匹配优先的。

8、环视（又称零宽断言）

　　(?=...) 顺序环视，表示的含义是，从左到右顺序查看文本，如果能够匹配就返回匹配成功。

　　如a(?=def)，表示的含义，首先有一个a，接着一个d，接着一个e，接着一个f，如果成功，则返回成功。匹配adef就可能成功。
　　顺序环视匹配的也是一个位置，并不占用字符
　　(?=Jeffrey) 去匹配Jeffrey Fried。匹配的就是J前面的位置
　　(?=Jeffrey)Jeff可以获得更精确的结果。
　　同样还有逆序环视
　　(?<=...)，表示从右到左环视字符串。(?<=Jeffrey)匹配的是y后面的位置。
　　上面又称肯定环视
　　将等号换成!就表示否定环视
　　如(?!...) 顺序否定环视
　　(?<!...)逆序否定环视
　　re.split(r‘(?<=a)b(?=c)‘, ‘123b321abc123‘) [‘123b321a‘, ‘c123‘]

　　re.split(r‘(?<!a)b(?!c)‘, ‘123b321abc123‘) [‘123‘, ‘321abc123‘]

　　注意：环视的限制，环视中可以出现什么表达式通常有限制，一般顺序环视没有限制，逆序环视往往限制匹配的长度。(?<=books?)往往是不合法的正则表达式，因为匹配文本长度是不确定的。

括号的作用

　　1、限制作用域

　　如前面限制| ? {min, max} + *等作用域

　　2、捕获期望字符串。可以进行分组和反向引用。可以有多个括号，捕获的顺序是(出现的次序。括号能够记住自己匹配上的内容，这样可以进场分组和反向引用。
　　　　2.1、分组，大部分语言都提供分组的功能。如python中：

import re
#2017.07.12
re.match(r‘([0-9]{4}).([0-9]{2}).[0-9]{2}‘, ‘2017-07-12‘).group(1)

　　　　2.2、反向引用，反斜杠加上数字，表示当前位置匹配第几个分组中的内容。从1开始
　　　　例如：

　　　　([a-z])([1-9])\2\1，其中\1匹配的是[a-z]匹配的内容，\2匹配的是[1-9]匹配的内容。能够匹配a11a等对称的字符串。
　　　　(([a-z])([1-9]))\3\2去匹配a11a，第一个括号捕获的是a11a，第二个括号匹配的是a，第三个是1

　　　　还是之前日期的例子，正则表达式2017([-./])07(\1)12，可以精确匹配这三个‘2017-07-12‘, ‘2017.07.12‘, ‘2017/07/12‘中的一个，不会匹配其他字符串。注意\1加了括号，因为1后面还有数字，避免　　混淆。同时加了括号，那么又会多出一个捕获分组。

　　3、组合成其他元字符

　　例如环视

　　4、命名捕获

　　(P?<Name>...)

　　python中：

print re.match(r‘(?P<word>\w+)(?P=word)‘, ‘pythonpython‘).group(‘word‘)

　　java中：

Pattern pattern = Pattern.compile("(?<word>\\w+)\\k<word>");
Matcher matcher = pattern.matcher("javajava");
if(matcher.matches()){
    System.out.println(matcher.group("word"));
}

　　注意：一个字符是否是元字符，取决于所属环境，如在字符组内.号就不是字符组。部分元字符加上反斜杠转义成普通字符，部分普通字符加上反斜杠变成元字符。

其他常用元字符

　　\t制表符，tap
　　\n换行符
　　\s 任何空白字符(包括制表符，换行，空格等)常用
　　\S除了\s以外的字符
　　\w [a-zA-Z0-9],通常用\w+匹配单词，注意的是部分工具中\w可以匹配unicode中的“字母”如汉字，notepad++
　　\d [0-9]
　　\D 除了\d意外的字符，[^0-9]

　　大多数正则表达式都提供对unicode的支持。
　　\u4e2d匹配中文的中字。
　　[\u4e00-\u9fa5]可以用这个来表示中文字符。

　　忽略优先量词 *? +? {m,n}?，前面提到的匹配优先量词加上?，就变成忽略优先量词，优先匹配下限次数。如a+?去匹配aaaab，只会匹配第一个a。

　　占有优先量词 *+ ?+ ++ {m,n}+，匹配优先量词加上+，不会交还已匹配的字符。目前主要是java.util.regex这个包提供这个功能。\d+0 匹配123450是可以匹配成功的。但是\d++0是无法匹配成功的。

匹配原理

　　正则匹配引擎主要分为两类，DFA和NFA，发展的过程也产生了一些变体

　　DFA引擎主要有awk MySQL

　　传统型NFA引擎主要有python java PHP Ruby sed .NET

　　其他引擎等

　　DFA不支持忽略优先量词，基本上就是传统型NFA。本教程只关注传统型NFA引擎的正则表达式。

　　有两条普遍的规则，适用于大多数NFA和DFA引擎。

规则一优先选择最左端的匹配结果

　　起始位置最靠左的匹配结果总是优先其他可能的结果。匹配先从需要查找的字符串的起始位置尝试匹配。尝试匹配的意思是，在当前位置测试整个表达式能匹配的文本。如果当前位置测试了所有可能之后不能找到匹配结果，那么就会从第二个字符之前的位置开始重新尝试匹配。在找到匹配前会一直重复这个过程，如果尝试了所有位置，都找不到匹配结果的情况下，才会报告匹配失败。

例如：使用ORA来匹配FLORAL，首先第一轮从F前面开始匹配，用O去尝试匹配，尝试会失败；然后从F后面L前面开始匹配，仍然用O去尝试匹配，失败；第三次尝试成功。

规则二标准量词是匹配优先的* ？ + {m,n}

　　标准量词并非是所有可能中最长的，但它们匹配尽可能多的字符，直到上限。\b\w+s\b来匹配结尾是s的单词。比如匹配regexes，\w+是可以匹配整个单词的，但是如果\w+匹配了整个单词，s\b就无法匹配了，所有\w+只能匹配regexe，最后的字符让s\b去匹配

　　^Subject:(.*)，如果^Subject:部分匹配成功了，那么整个正则表达式都会匹配成功。.*的目的是*是匹配优先的，会把剩下的所有字符都匹配上。这是我们期望的。

过度的优先匹配

　　^.*\d\d能够匹配一行中最后的两个数字。对于这个字符串，about 24 characters long，首先.*匹配了整个字符串，这时候第一个\d需要匹配，为了避免匹配失败，.*需要交出最后一个字符g，显然\d无法匹配g，.*继续交出下一个字符n，这样循环15次，最终交出4时候，\d终于可以匹配上了，但是第二个\d仍然无法匹配，所以.*必须再交出一个字符2。这样.*匹配了“about ”，\d\d匹配了24。

NFA引擎：表达式主导

　　例如：to(nite|knight|night) 去匹配‘...tonight...‘。正则表达式第一个需要匹配的是t，它去字符串中寻找t，从第一个位置开始寻找，找到后停下，接下来是o，检查o能否匹配下一个字符，如果能匹配，继续检查下面的元素。下面的元素指的是(nite|knight|night)它们是或的关系。引擎会尝试这三种可能。在尝试nite的过程和之前一样，尝试匹配n，接着是i，最后是e。

回溯

　　NFA最重要的性质是，它会一次处理各个子表达式或组成的元素，遇到需要在两个可能的成功的可能中进行选择的时候，它会选择其一，同时记住另一个，以备稍后可能的需要。

　　需要作出选择的情形主要包括量词和多选结构。无论选择哪一个途径，如果匹配成功了，其余下的也匹配成功了，那么匹配就结束了，如果余下的匹配失败了，引擎会回溯到之前做出选择的地方，选择其他的备用分支继续尝试。这样，引擎会尝试表达式的所有可能途径，直到匹配成功，或者尝试完所有路径并失败。

　　例如：对于to(nite|knight|night)去匹配hot tonic tonight

　　首先用正则表达式的t，从字符串的起始位置开始匹配，首先t无法匹配h，第一轮匹配失败，第二轮，t匹配o，同样失败，第三轮，t匹配成功，但是接下来o不匹配空格，导致本轮失败。进行第四轮匹配，to匹配成功，进入3个多选分支。三个分支都有可能。假设选择的是nite进行匹配，首先是n匹配成功，接着是i匹配成功，但是到c的时候匹配失败。这个失败并不会导致这一轮失败，也就是这个位置的匹配失败，因为还有其他分支没有尝试。假设接下来尝试knight，这时候回溯到to和nic之间的位置，显然第一次匹配，k与n匹配失败，那么只剩下night继续匹配了，显然这一次也失败了，这导致这个位置的匹配全部失败。这样会进入下一个位置，重复上面的操作。最终到tonight的前的位置时，选择night这个分支匹配成功了。

回溯的两个要点。

　　在匹配时，当出现多个选择时，应该首先选择哪个？
　　　　1、对于匹配优先量词，会优先进行匹配。
　　　　2、对于忽略优先量词，会选择跳过尝试。
　　　　3、对于多选结构，会选择按顺序进行尝试。
　　当需要回溯时，应该选择哪个备用状态。
　　　　选择当前最近存储的选项。如果前面是死路，你只需要沿路返回，找到上一次做出选择的地方。

关于备用状态

　　ab?c 匹配 abc 　　首先a匹配a，成功，接着b?去匹配b，这时候有可能失败，所以必须记下备用状态ab? · c和a · bc，b?匹配b成功，接着c匹配c成功。最终匹配成功，备用状态也丢弃了。
　　ab?c 匹配 ac　　首先a匹配a，成功，接着b?去匹配c，这时候有可能失败，所以必须记下备用状态ab? · c和a · c，b?匹配c失败，选用回溯到备用状态，接着c匹配c成功。最终匹配成功，备用状态也丢弃了。

　　ab?c 匹配 abx　　首先a匹配a，成功，接着b?去匹配b，这时候有可能失败，所以必须记下备用状态ab?·c和a·bx，b?匹配b成功，接着c匹配x失败，选用回溯到备用状态，接着c匹配b失败。但是整个匹配还没有结束。还会继续匹配下去。

　　*和+的回溯
　　\d+ 去匹配 a 1234 num，在用\d去匹配空格的时候，失败了，那么它会回溯。
　　a 1`234 num
　　a 12`34 num
　　a 123`4 num
　　a 1234` num
　　\d+`去匹配空格，但是此时表达式已经匹配完成，并且已经匹配到数据了，那么整个匹配结束。
　　a `1234 num这个位置并不在备用选项中，\d*来匹配整个字符串，会有这个备用选项吗？

一些问题
　　.*的问题 ".*"去匹配双引号文本
　　<input name="id" value="1">，结果发现匹配的是"id" value="1"这个文本，"[^"]*"就可以了。

　　<B>name</B>and<B>age</B> 使用<B>.*</B>去匹配，同样出现上面的问题，但是我们不能使用<B>[^</B>]*</B>。
　　<B>.*?</B> 使用忽略优先量词

　　占有优先量词，java中提供了占有优先量词，它不会交回已匹配的字符，可以避免备用状态。
　　\d++元去匹配金额，1231231美元。
　　\d++\d永远无法匹配任何字符。

多选结构的陷阱
　　Jan 1到 Jan 31，需要匹配合法的日期
　　Jan [0-3][0-9] 无法匹配Jan 1 却能匹配Jan 00
　　Jan (0?[1-9]|[12][0-9]|3[01])看起来没有任何问题。可以匹配Jan 2，Jan 01，但是匹配Jan 21的时候匹配的是Jan 2。
　　Jan ([12][0-9]|3[01]|0?[1-9])

正则表达式的实用技巧

　　理想情况中，好的正则表达式必须在下面这些方面取得平衡。

　　　　1、只匹配期望的文本，排除不期望的文本

　　　　2、易于控制和理解

　　　　3、必须保证效率(如果能够匹配，必须很快返回结果，如果不能匹配，应该尽可能快的报告匹配失败)

　　现实情况，好的正则表达式与具体问题结合。在完整性和复杂性之间取得平衡。

　　避免优化过度

　　为提高效率而改动正则表达式最需要考虑的问题是，改动是否会影响准确性。

　　必要时才进行优化，优化需要考虑使用的环境和语言，优化后需要测试

正则表达式的匹配过程

　　正则表达式编译，检测语法，编译成内部形式

　　开始匹配，定位到字符串的起始位置

　　元素检测依次测试正则表达式的各个元素。

　　相连元素会依次尝试 Subject

　　量词修饰的元素，控制权会在量词和被限定的匀速直接轮换

　　控制权在捕获型括号内外切换回带来一些开销。

　　寻找匹配结果如果遭到匹配结果，就会报告匹配成功。

　　继续匹配如果没有找到匹配，就会从下一个字符继续匹配。

　　匹配彻底失败，所有尝试都失败了，就会报告匹配失败

简单优化措施

　　1、消除不必要的括号，必须使用括号时，请尽量使用非捕获型括号

　　　　例如：.* 和 (?:.)*

　　2、消除不必要的字符组

　　　　例如：[.] 和 \.

　　3、使用.*开头的表达式应该在最前面加^

　　　　例如：.*abc vs ^.*abc

　　4、在多选结构中提取开头的必需元素

　　　　例如：th(?:is|at) 替代 (?:this|that)

　　5、多选结构的代价

　　　　例如：u|v|w|x|y|z VS [uvwxyz]，尽量避免多选结构

　　6、改变多选结构的顺序

　　　　例如：去匹配引号中的字符，并且能够匹配转义的引号。"(\\.|[^"\\])*"去匹配"2\"x3\" likeness" 。可以优化"([^"\\]|\\.)*"

正则表达式基础、原理及优化

标签：原因 gre and 精通 linux 能力 pil 进入区间

原文地址：http://www.cnblogs.com/lilinwei340/p/7192200.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

正则表达式基础、原理及优化

前言

推荐的书籍和网站：

基本概念

1、行的起始^和结束$（字符串的起始和结束）

2、字符组[]

3、用点号匹配任意字符

4、多选结构 |

5、单词分界符 \b

6、可选项元素 ?

7、其他量词* + 区间{min,max}

8、环视（又称 零宽断言）

括号的作用

其他常用元字符

匹配原理

规则一 优先选择最左端的匹配结果

规则二 标准量词是匹配优先的* ？ + {m,n}

过度的优先匹配

NFA引擎：表达式主导

回溯

正则表达式的实用技巧

正则表达式的匹配过程

简单优化措施

8、环视（又称零宽断言）

规则一优先选择最左端的匹配结果

规则二标准量词是匹配优先的* ？ + {m,n}