正则表达式

时间：2019-12-30 09:38:01 阅读：106 评论：0 收藏：0 [点我收藏+]

标签：正则表达 def 表达 print pre comm most findall 完成

1. 匹配单个字符

字符	功能
.	匹配任意1个字符（除了\n）
[ ]	匹配[ ]中列举的字符
\d	匹配数字，即0-9
\D	匹配非数字，即不是数字
\s	匹配空白，即空格，tab键
\S	匹配非空白
\w	匹配单词字符，即a-z、A-Z、0-9、_
\W	匹配非单词字符

2. 匹配多个字符

字符	功能
*	匹配前一个字符出现0次或者无限次，即可有可无
+	匹配前一个字符出现1次或者无限次，即至少有1次
?	匹配前一个字符出现1次或者0次，即要么有1次，要么没有
{m}	匹配前一个字符出现m次，前面的表达式作用m次
{m,n}	匹配前一个字符出现从m到n次，前面的表达式作用m到n次

3. 匹配开头和结尾

字符	功能
^	匹配字符串开头，一后面的一串表达式开头
$	匹配字符串结尾，以前面的一串表达式结尾

4. 匹配分组

字符	功能
\|	匹配左右任意一个表达式
(ab)	将括号中字符作为一个分组，（xxx\|xxx\|xxx）
`\num`	引用分组num匹配到的字符串
`(?P<name>)`	分组起别名
(?P=name)	引用别名为name分组匹配到的字符串

示例：|

# 添加|
ret = re.match("[1-9]?\d$|100","8")
print(ret.group())  # 8

ret = re.match("[1-9]?\d$|100","78")
print(ret.group())  # 78

ret = re.match("[1-9]?\d$|100","08")
# print(ret.group())  # 不是0-100之间

ret = re.match("[1-9]?\d$|100","100")
print(ret.group())  # 100

示例：()

import re

ret = re.match("\w{4,20}@163\.com", "test@163.com")
print(ret.group())  # test@163.com

ret = re.match("\w{4,20}@(163|126|qq)\.com", "test@126.com")
print(ret.group())  # test@126.com

ret = re.match("\w{4,20}@(163|126|qq)\.com", "test@qq.com")
print(ret.group())  # test@qq.com

ret = re.match("\w{4,20}@(163|126|qq)\.com", "test@gmail.com")
if ret:
    print(ret.group())
else:
    print("不是163、126、qq邮箱")  # 不是163、126、qq邮箱

>>> ret = re.match("([^-]*)-(\d+)","010-12345678")
>>> ret.group()
‘010-12345678‘
>>> ret.group(1)
‘010‘
>>> ret.group(2)
‘12345678‘

示例：\

需求：匹配出<html>hh</html>

import re

# 能够完成对正确的字符串的匹配
ret = re.match("<[a-zA-Z]*>\w*</[a-zA-Z]*>", "<html>hh</html>")
print(ret.group())

# 如果遇到非正常的html格式字符串，匹配出错
ret = re.match("<[a-zA-Z]*>\w*</[a-zA-Z]*>", "<html>hh</htmlbalabala>")
print(ret.group())

# 正确的理解思路：如果在第一对<>中是什么，按理说在后面的那对<>中就应该是什么

# 通过引用分组中匹配到的数据即可，但是要注意是元字符串，即类似 r""这种格式
ret = re.match(r"<([a-zA-Z]*)>\w*</\1>", "<html>hh</html>")
print(ret.group())

# 因为2对<>中的数据不一致，所以没有匹配出来
test_label = "<html>hh</htmlbalabala>"
ret = re.match(r"<([a-zA-Z]*)>\w*</\1>", test_label)
if ret:
    print(ret.group())
else:
    print("%s 这是一对不正确的标签" % test_label)

# 运行结果：

<html>hh</html>
<html>hh</htmlbalabala>
<html>hh</html>
<html>hh</htmlbalabala> 这是一对不正确的标签

示例：\number

需求：匹配出<html><h1>www.itcast.cn</h1></html>

import re

labels = ["<html><h1>www.itcast.cn</h1></html>", "<html><h1>www.itcast.cn</h2></html>"]

for label in labels:
    ret = re.match(r"<(\w*)><(\w*)>.*</\2></\1>", label)
    if ret:
        print("%s 是符合要求的标签" % ret.group())
    else:
        print("%s 不符合要求" % label)

#运行结果：

<html><h1>www.itcast.cn</h1></html> 是符合要求的标签
<html><h1>www.itcast.cn</h2></html> 不符合要求

示例：`(?P<name>)` `(?P=name)`

ret = re.match(r"<(?P<name1>\w*)><(?P<name2>\w*)>.*</(?P=name2)></(?P=name1)>", "<html><h1>xxx</h1></html>")
print(ret.group())

5. match

import re

ret = re.match(r"\d+", "6666阅读次数为9999")
print(ret.group())  # 6666
print(ret.group(0))  # 6666

6. search

需求：匹配出文章阅读的次数

import re

ret = re.search(r"\d+", "阅读次数为 9999")
ret.group()

# 运行结果：

‘9999‘

7. findall

需求：统计出python、c、c++相应文章阅读的次数

import re

ret = re.findall(r"\d+", "python = 9999, c = 7890, c++ = 12345")
print(ret)

# 运行结果：

[‘9999‘, ‘7890‘, ‘12345‘]

8. sub 将匹配到的数据进行替换

需求：将匹配到的阅读次数加1

方法1：

import re

ret = re.sub(r"\d+", ‘998‘, "python = 997")
print(ret)  # python = 998

方法2：

import re

def add(temp):
    strNum = temp.group()
    num = int(strNum) + 1
    return str(num)

ret = re.sub(r"\d+", add, "python = 997")
print(ret)  # python = 998

ret = re.sub(r"\d+", add, "python = 99")
print(ret)  # python = 100

9. 贪婪和非贪婪

Python里数量词默认是贪婪的（在少数语言里也可能是默认非贪婪），总是尝试匹配尽可能多的字符；

非贪婪则相反，总是尝试匹配尽可能少的字符。

在"*","?","+","{m,n}"后面加上？，使贪婪变成非贪婪。

>>> s="This is a number 234-235-22-423"
>>> r=re.match(".+(\d+-\d+-\d+-\d+)",s)
>>> r.group(1)
‘4-235-22-423‘
>>> r=re.match(".+?(\d+-\d+-\d+-\d+)",s)
>>> r.group(1)
‘234-235-22-423‘
>>>

正则表达式模式中使用到通配字，那它在从左到右的顺序求值时，会尽量“抓取”满足匹配最长字符串，在我们上面的例子里面，“.+”会从字符串的启始处抓取满足模式的最长字符，其中包括我们想得到的第一个整型字段的中的大部分，“\d+”只需一位字符就可以匹配，所以它匹配了数字“4”，而“.+”则匹配了从字符串起始到这个第一位数字4之前的所有字符。

解决方式：非贪婪操作符“？”，这个操作符可以用在"*","+","?"的后面，要求正则匹配的越少越好。

>>> re.match(r"aa(\d+)","aa2343ddd").group(1)
‘2343‘
>>> re.match(r"aa(\d+?)","aa2343ddd").group(1)
‘2‘
>>> re.match(r"aa(\d+)ddd","aa2343ddd").group(1) 
‘2343‘
>>> re.match(r"aa(\d+?)ddd","aa2343ddd").group(1)
‘2343‘
>>>

import re

s = "abcdefghijklmnsdgadgfdsagfdsg--dsfa"

ret = re.match(r".+?", s)
print(ret.group())  # a

ret = re.match(r"(.*?)d", s)  # .*?一般不单独使用，单独使用就是匹配零次了
                              # .*?懒惰匹配，满足条件的情况值匹配一次
                              # (.*?)d  # d表示限定
print(ret.group())  # abcd
print(ret.group(0))  # abcd
print(ret.group(1))  # abc

ret = re.match(r"(.*)d", s)  # 贪婪匹配，满足条件的情况都匹配，直到不能匹配上为止
print(ret.group())  # abcdefghijklmnsdgadgfdsagfdsg--d

10. r的作用

>>> mm = "c:\\a\\b\\c"
>>> mm
‘c:\\a\\b\\c‘
>>> print(mm)
c:\a\b\c
>>> re.match("c:\\\\",mm).group()
‘c:\\‘  # 在交互式中是两个反斜杠
>>> ret = re.match("c:\\\\",mm).group()
>>> print(ret)
c:>>> ret = re.match("c:\\\\a",mm).group()
>>> print(ret)
c:\a
>>> ret = re.match(r"c:\\a",mm).group()
>>> print(ret)
c:\a
>>> ret = re.match(r"c:\a",mm).group()
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
AttributeError: ‘NoneType‘ object has no attribute ‘group‘
>>>

说明：

Python中字符串前面加上 r 表示原生字符串，

与大多数编程语言相同，正则表达式里使用"\"作为转义字符，这就可能造成反斜杠困扰。假如你需要匹配文本中的字符"\"，那么使用编程语言表示的正则表达式里将需要4个反斜杠"\\"：前两个和后两个分别用于在编程语言里转义成反斜杠，转换成两个反斜杠后再在正则表达式里转义成一个反斜杠。

Python里的原生字符串很好地解决了这个问题，有了原生字符串，你再也不用担心是不是漏写了反斜杠，写出来的表达式也更直观。

>>> ret = re.match(r"c:\\a",mm).group()
>>> print(ret)
c:\a

正则表达式

标签：正则表达 def 表达 print pre comm most findall 完成

原文地址：https://www.cnblogs.com/yzg-14/p/12117308.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

正则表达式

1. 匹配单个字符

2. 匹配多个字符

3. 匹配开头和结尾

4. 匹配分组

示例：|

示例：()

示例：\

示例：\number

示例：(?P<name>) (?P=name)

5. match

6. search

7. findall

8. sub 将匹配到的数据进行替换

9. 贪婪和非贪婪

10. r的作用

说明：

示例：`(?P<name>)` `(?P=name)`