正则表达式的元字符

时间：2020-06-27 09:53:31 阅读：65 评论：0 收藏：0 [点我收藏+]
import re

print("---------------匹配单个字符---------------------")

r‘‘‘
.                匹配除换行符以外的任意字符
[0123456789]     []是字符集和，表示匹配方括号中所包含的任意一个字符
[abcd]           匹配‘a‘, ‘b‘, ‘c‘, ‘d‘中任意一个字符
[a-z]            匹配任意小写字母
[A-Z]            匹配任意大写字母
[0-9]            匹配任意数字，类似[0123456789]
[0-9a-zA-Z]      匹配任意的数字和字母
[0-9a-zA-Z_]     匹配任意的数字、字母和下划线
[^abcd]          匹配除了‘a‘, ‘b‘, ‘c‘, ‘d‘这几个字母以外的所有字符，
                 中括号里的^称为脱字符，表示不匹配集合中的字符
[^0-9]           匹配所有的非数字字符
\d               匹配所有的数字，效果同[0-9]
\D               匹配非数字字符，效果同[^0-9]
\w               匹配数字、字母和下划线，效果同[0-9a-zA-Z_]
\W               匹配非数字、字母和下划线，效果同[^0-9a-zA-Z_]
\s               匹配任意的空白符(空格，换行，回车，换页，制表)，效果同[ \f\n\r\t]
\S               匹配任意的非空白符，效果同[^ \f\n\r\t]
‘‘‘

print(re.findall("\w", "_asda sdasd aswre rtre tgrt 7"))

print("---------------锚字符(边界字符)---------------------")

‘‘‘
^                行首匹配，和在[]里的^不是一个意思
$                行尾匹配

\A               匹配字符串开始，它和^的区别是：\A只匹配整个字符串的开头，
                 即使在re.M模式下也不会匹配它行的行首

\Z               匹配字符串结束，它和$的区别是：\A只匹配整个字符串的行尾，
                 即使在re.M模式下也不会匹配它行的行尾

\b               匹配一个单词的边界，也就是指单词和空格间的位置
\B               匹配非单词的边界，也就是指单词和空格间的位置                 
                 
                 
‘‘‘

print(re.search("^To", "To be or not to be。That is a question!"))
print(re.search("\ATo", "To be or not to be。That is a question!"))

print(re.findall("^To", "To be or not to be。That is a question!\n"
                        "To be or not to be。That is a question!", re.M))

print(re.findall("To\A", "To be or not to be。That is a question!\n"
                         "To be or not to be。That is a question!", re.M))

print(re.search(r"on\b", "To be or not to be。That is a question!"))


print("---------------匹配多个字符---------------------")
‘‘‘
说明：下方的x、y、z、均为假设的普通字符，n、m(非负整数)，不是正则表达式的元字符
(xyz)         匹配小括号内的xyz(作为一个整体)
x?            匹配0个或者1个x
x*            匹配0个或者任意多个x(.*表示匹配0个或者任意多个字符(换行符除外))

x+            匹配至少一个x
x{n}          匹配确定的n个x(n是一个非负整数)
x{n,}         匹配至少n个x
x{n,m}        匹配至少n个最多m个x。注意：n <= m
x|y           |表示或，匹配的是x或y


‘‘‘

print(re.findall(".*?", "To be or not to be。That is a question!"))# 非贪婪匹配(尽可能少的匹配)
print(re.findall("e*", "To be or not to be。That is a question!"))# 贪婪匹配(尽可能多的匹配)
print(re.findall("e+", "To be or not to be。That is a question!"))# 贪婪匹配(尽可能多的匹配)
print(re.findall("a{3}", "aaaaa"))
print(re.findall("a{3,}", "aaaaaa"))# 贪婪匹配(尽可能多的匹配)
print(re.findall("a{3,6}", "aaaaaaa"))
print(re.findall("b|B", "To be or not to Be。That is a question!"))




print("---------------特殊---------------------")
‘‘‘
*?  +?    x?   最小匹配 通常都是尽可能多的匹配，可以使用这种方式解决贪婪匹配

(?:x)         类似(xyz)，但不表示一个组

‘‘‘


str1 = "<img src=\"test.jpg\" width=\"60px\" height=\"80px\"/>"
ru = "src=\".*?\""
print(re.findall(ru, str1))











‘‘‘
正则表达式的语法

1、正则表达式语法由字符和操作符构成
正则表达式时的常用操作符：

操作符                      说明                                 实例
.                  表示任何单个字符
[]                 字符集，对单个字符给出取值范围             [abc]表示a、b、c，[a-z]表示a到z单个字符
[^]                非字符集，对单个字符给出排除范围           [^abc]表示非a或b或c的单个字符
*                  前一个字符0次或无限次扩展                  abc* 表示ab、abc、abcc、abccc等
+                  前一个字符1次或无限次扩展                  abc+ 表示abc、abcc、abccc等
?                  前一个字符0次或1次扩展                     abc? 表示ab、abc
|                  左右表达式任意一个                         abc|def 表示abc或def
{m}                扩展前一个字符m次                          ab{2}c表示abbc
{m,n}              扩展前一个字符m至n次(含n)                  ab{1,2}c表示abc、abbc
^                  匹配字符串开头                             ^abc表示abc且在一个字符串的开头
$                  匹配字符串结尾                             abc$表示abc且在一个字符串的结尾
()                 分组标记，内部只能使用|操作符              (abc)表示abc，(abc|def)表示abc或def
\d                 数字，等价于[0-9]
\w                 单词字符，等价于[A-Za-z0-9_]

经典正则表达式实例

^[A-Za-z]+$                   由26个字母组成的字符串
^[A-Za-z0-9]+$                由26个字母和数字组成的字符串
^-?\d+$                       整数形式的字符串
^[0-9]*[1-9][0-9]*$           正整数形式的字符串
[1-9]\d{5}                    中国境内邮政编码，6位
[\u4e00-\u9fa5]               匹配中文字符
\d{3}-\d{8}|\d{4}-\d{7}       国内电话号码  010-68913635

匹配IP地址的正则表达式
           IP地址字符串形式的正则表达式
              （IP地址分4段，每段0-255）
              
        \d+.\d+.\d+.\d+
        \d{1,3}.\d{1,3}.\d{1,3}.\d{1,3}
        
        精确写法：
        0-99：[1-9]?\d          100-199: 1\d{2}
        200-249: 2[0-4]\d       250-255: 25[0-5]
        
        (([1-9]?\d|1\d{2}|2[0-4]\d|25[0-5]).){3}([1-9]?\d|1\d{2}|2[0-4]\d|25[0-5])

‘‘‘


‘‘‘
Re库介绍

import re

re库采用raw string类型表示正则表达式，表示为：r‘text‘
例如： r‘[1-9]\d{5}‘
       r‘\d{3}-\d{8}|\d{4}-\d{7}‘
       
       raw string是不包含转义符的字符串

Re库主要功能函数

函数                                                   说明
re.search()                   在一个字符串中搜索匹配正则表达式的第一个位置，返回match对象
re.match()                    从一个字符串的开始位置起匹配正则表达式，返回match对象
re.findall()                  搜索字符串，以列表类型返回全部能匹配的子串
re.split()                    将一个字符串按照正则表达式匹配结果进行分割，返回列表类型
re.finditer()                 搜索字符串，返回一个匹配结果的迭代类型，每个迭代元素是match对象
re.sub()                      在一个字符串中替换所有匹配正则表达式的子串，返回替换后的字符串

‘‘‘

‘‘‘
re.search(pattern, string, flag=0)
功能：
在一个字符串中搜索匹配正则表达式的第一个位置，返回match对象
参数：
pattern：正则表达式的字符串或原生字符串表示
string：待匹配字符串
flags：正则表达式使用时的控制标记

     常用标记                                    说明
re.I re.IGNORECASE          忽略正则表达式的大小写，[A-Z]能够匹配小写字符
re.M re.MULTILINE           正则表达式中的^操作符能够将给定字符串的每行当做匹配开始
re.S re.DOTALL              正则表达式中的.操作符能够匹配所有字符，默认匹配除换行外的所有字符

‘‘‘
match = re.search(r‘[1-9]\d{5}‘, ‘BIT 100081‘)
if match:
    print(match.group(0))

# 100081


‘‘‘
re.match(pattern, string, flag=0)
功能：
从一个字符串的开始位置起匹配正则表达式，返回match对象
参数：
pattern：正则表达式的字符串或原生字符串表示
string：待匹配字符串
flags：正则表达式使用时的控制标记

     常用标记                                    说明
re.I re.IGNORECASE          忽略正则表达式的大小写，[A-Z]能够匹配小写字符
re.M re.MULTILINE           正则表达式中的^操作符能够将给定字符串的每行当做匹配开始
re.S re.DOTALL              正则表达式中的.操作符能够匹配所有字符，默认匹配除换行外的所有字符

‘‘‘

match = re.match(r‘[1-9]\d{5}‘,‘100081 BIT‘)
if match:
    print(match.group(0))

# ‘100081‘

‘‘‘
re.findall(pattern, string, flag=0)
功能：
搜索字符串，以列表类型返回全部能匹配的子串
参数：
pattern：正则表达式的字符串或原生字符串表示
string：待匹配字符串
flags：正则表达式使用时的控制标记

     常用标记                                    说明
re.I re.IGNORECASE          忽略正则表达式的大小写，[A-Z]能够匹配小写字符
re.M re.MULTILINE           正则表达式中的^操作符能够将给定字符串的每行当做匹配开始
re.S re.DOTALL              正则表达式中的.操作符能够匹配所有字符，默认匹配除换行外的所有字符

‘‘‘

ls = re.findall(r‘[1-9]\d{5}‘,‘BIT100081 TSU100084‘)
# [‘100008‘, ‘100084‘]


‘‘‘
re.split(pattern, string, maxsplit=0, flag=0)
功能：
将一个字符串按照正则表达式匹配结果进行分割，返回列表类型
参数：
pattern：正则表达式的字符串或原生字符串表示
string：待匹配字符串
maxsplit: 最大分割数，剩余部分作为最后一个元素输出
flags：正则表达式使用时的控制标记

     常用标记                                    说明
re.I re.IGNORECASE          忽略正则表达式的大小写，[A-Z]能够匹配小写字符
re.M re.MULTILINE           正则表达式中的^操作符能够将给定字符串的每行当做匹配开始
re.S re.DOTALL              正则表达式中的.操作符能够匹配所有字符，默认匹配除换行外的所有字符

‘‘‘

re.split(r‘[1-9]\d{5}‘,‘BIT100081 TSU100084‘)
# [‘BIT‘, ‘ TSU‘, ‘‘]

re.split(r‘[1-9]\d{5}‘,‘BIT100081 TSU100084‘, maxsplit=1)
# [‘BIT‘, ‘ TSU100084‘]

‘‘‘
re.finditer(pattern, string, flag=0)
功能：
搜索字符串，返回一个匹配结果的迭代类型，每个迭代元素是match对象
参数：
pattern：正则表达式的字符串或原生字符串表示
string：待匹配字符串
maxsplit: 最大分割数，剩余部分作为最后一个元素输出
flags：正则表达式使用时的控制标记

     常用标记                                    说明
re.I re.IGNORECASE          忽略正则表达式的大小写，[A-Z]能够匹配小写字符
re.M re.MULTILINE           正则表达式中的^操作符能够将给定字符串的每行当做匹配开始
re.S re.DOTALL              正则表达式中的.操作符能够匹配所有字符，默认匹配除换行外的所有字符

‘‘‘

for m in re.finditer(r‘[1-9]\d{5}‘,‘BIT100081 TSU100084‘):
    if m:
        print(m.group(0))

# 100081
# 100084


‘‘‘
re.sub(pattern, repl, string, count, flag=0)
功能：
在一个字符串中替换所有匹配正则表达式的子串，返回替换后的字符串
参数：
pattern：正则表达式的字符串或原生字符串表示
repl：替换匹配字符串的字符串
string：待匹配字符串
count: 匹配的最大替换次数
flags：正则表达式使用时的控制标记

     常用标记                                    说明
re.I re.IGNORECASE          忽略正则表达式的大小写，[A-Z]能够匹配小写字符
re.M re.MULTILINE           正则表达式中的^操作符能够将给定字符串的每行当做匹配开始
re.S re.DOTALL              正则表达式中的.操作符能够匹配所有字符，默认匹配除换行外的所有字符

‘‘‘

re.sub(r‘[1-9]\d{5}‘, ‘:zipcode‘, ‘BIT100081 TSU100084‘)
# ‘BIT:zipcode TSU:zipcode‘




‘‘‘

Match对象：

1、Match对象的属性

属性                                         说明
.string                           待匹配的文本
.re                               匹配时使用的pattern对象（正则表达式）
.pos                              正则表达式搜索文本的开始位置
.endpos                           正则表达式搜索文本的结束位置

2、Match对象的方法

方法                                        说明
.group(0)                         获得匹配后的字符串
.stat()                           匹配字符串在原始字符串的开始位置
.end()                            匹配字符串在原始字符串的结束位置
.span()                           返回（.start(), .end()）


‘‘‘


m = re.search(r‘[1-9]\d{5}‘,‘BIT100081 TSU100084‘)
m.string
"‘BIT100081 TSU100084‘"

m.re
"re.compile(‘[1-9]\\d{5}‘)"

m.pos
"0"

m.endpos
"19"

m.group(0)
"‘100081‘"

m.start()
"3"

m.end()
"9"

m.span()
"(3, 9)"



‘‘‘

Re库的贪婪匹配和最小匹配


‘‘‘
match = re.search(r‘PY.*N‘, ‘PYANBNCNDN‘)
match.group(0)

‘‘‘

这里有4种匹配项：
PYAN
PYANBN
PYANBNCN
PYANBNCNDN

# 同时匹配长短不同的多项，返回哪一个呢？
Re库默认采用贪婪匹配，即输出匹配最长的子串。

‘‘‘
"‘PYANBNCNDN‘"

‘‘‘

最小匹配
如何输出最短的子串呢？

‘‘‘
match = re.search(r‘PY.*?N‘, ‘PYANBNCNDN‘)
match.group(0)
"‘PYAN‘"


‘‘‘

最小匹配操作符

操作符                             说明
*?                     前一个字符0次或无限次扩展，最小匹配
+?                     前一个字符1次或无限次扩展，最小匹配
??                     前一个字符0次或1次扩展，最小匹配
{m,n}?                 扩展前一个字符m至n次（含n），最小匹配

‘‘‘
正则表达式的元字符
标签：左右 bcd 经典 -- 字符 bit 下划线 att 解决
原文地址：https://www.cnblogs.com/pencil2001/p/13197202.html
踩
(0)
评论一句话评论（0）
分享档案
更多>
2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)
周排行