详解 Python3 正则表达式（四）

时间：2017-05-30 16:03:40 阅读：239 评论：0 收藏：0 [点我收藏+]

标签：fan reg jpg 序列换行转换翻译 start 应该

上一篇：详解 Python3 正则表达式（三）

本文翻译自：https://docs.python.org/3.4/howto/regex.html

博主对此做了一些批注和修改 ^_^

技术分享

像这种情况，我们就可以写一个正则表达式先来匹配一个整个 RFC-822 头，然后利用分组功能，使用一个组来匹配头的名字，另一个组匹配名字对应的值。

批注：RFC-822 是电子邮件的标准格式，当然到这里你还不知道分组要怎么分，不急，请接着往下看......

在正则表达式中，使用元字符 () 来划分组。() 元字符跟数学表达式中的小括号含义差不多；它们将包含在内部的表达式组合在一起，所以你可以对一个组的内容使用重复操作的元字符，例如 *，+，? 或者 {m,n} 。

例如，(ab)* 会匹配零个或者多个 ab：

技术分享

使用 () 表示的子组我们还可以对它进行按层次索引，可以将索引值作为参数传递给这些方法：group()，start()，end() 和 span() 。序号 0 表示第一个分组（这个是默认分组，一直存在的，所以不传入参数相当于默认值 0）：

技术分享

批注：有几对小括号就是分成了几个子组，例如 (a)(b) 和 (a(b)) 都是由两个子组构成的。

子组的索引值是从左到右进行编号，子组也允许嵌套，因此我们可以通过从左往磾来统计左括号 ( 来确定子组的序号。

技术分享

group() 方法可以一次传入多个子组的序号：

技术分享

批注：start() 是获得参数子组的开始位置；end() 是获得对应子组的结束位置；span() 是获得对应子组的范围。

我们还特么通过 groups() 方法一次性返回所有的子组匹配的字符串：

技术分享

还有一个反向引用的概念需要介绍，反向引用指的是你可以在后面的位置使用先前匹配过的内容，用法是反斜杠加上数字。例如 \1 表示引用前边成功匹配的序号为 1 的子组。

技术分享

如果只是搜索字符串，反向引用不会被用到，因为很少有文本格式会这样来重复字符。但是，你很快会发现，在字符串替换的时候，反向引用是非常有用的（深井水）！

批注：注意，在 Python 的字符串中会使用反斜杠加数字的方式来表示数字的值对应的 ASCII 字符，所以在使用反向索引的正则表达式中，我们依然强调要使用原始字符串。

(本文完)

下一篇：详解 Python3 正则表达式（五）

如果你喜欢这篇文章，请通过下方「评分」给我鼓励哦 ^_^

详解 Python3 正则表达式（四）

标签：fan reg jpg 序列换行转换翻译 start 应该

原文地址：http://www.cnblogs.com/fanfannotplay/p/6919906.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

详解 Python3 正则表达式（四）

更多强大的功能

更多元字符

1. I

2. ^

3. $

4. \A

5. \Z

6. \b

7. \B

分组