python学习（12）使用正则表达式

时间：2020-05-23 00:09:34 阅读：72 评论：0 收藏：0 [点我收藏+]

标签：字符集空白 style att 信息 color str love you ignore

1.正则表达式知识

符号	解释	示例	说明
.	匹配任意字符	b.t	可以匹配bat / but / b#t / b1t等
\w	匹配字母/数字/下划线	b\wt	可以匹配bat / b1t / b_t等但不能匹配b#t
\s	匹配空白字符（包括\r、\n、\t等）	love\syou	可以匹配love you
\d	匹配数字	\d\d	可以匹配01 / 23 / 99等
\b	匹配单词的边界	\bThe\b
^	匹配字符串的开始	^The	可以匹配The开头的字符串
$	匹配字符串的结束	.exe$	可以匹配.exe结尾的字符串
\W	匹配非字母/数字/下划线	b\Wt	可以匹配b#t / b@t等但不能匹配but / b1t / b_t等
\S	匹配非空白字符	love\Syou	可以匹配love#you等但不能匹配love you
\D	匹配非数字	\d\D	可以匹配9a / 3# / 0F等
\B	匹配非单词边界	\Bio\B
[]	匹配来自字符集的任意单一字符	[aeiou]	可以匹配任一元音字母字符
[^]	匹配不在字符集中的任意单一字符	[^aeiou]	可以匹配任一非元音字母字符
*	匹配0次或多次	\w*
+	匹配1次或多次	\w+
?	匹配0次或1次	\w?
{N}	匹配N次	\w{3}
{M,}	匹配至少M次	\w{3,}
{M,N}	匹配至少M次至多N次	\w{3,6}
\|	分支	foo\|bar	可以匹配foo或者bar
(?#)	注释
(exp)	匹配exp并捕获到自动命名的组中
(? <name>exp)	匹配exp并捕获到名为name的组中
(?:exp)	匹配exp但是不捕获匹配的文本
(?=exp)	匹配exp前面的位置	\b\w+(?=ing)	可以匹配I‘m dancing中的danc
(?<=exp)	匹配exp后面的位置	(?<=\bdanc)\w+\b	可以匹配I love dancing and reading中的第一个ing
(?!exp)	匹配后面不是exp的位置
(?<!exp)	匹配前面不是exp的位置
*?	重复任意次，但尽可能少重复	a.b a.?b	将正则表达式应用于aabab，前者会匹配整个字符串aabab，后者会匹配aab和ab两个字符串
+?	重复1次或多次，但尽可能少重复
??	重复0次或1次，但尽可能少重复
{M,N}?	重复M到N次，但尽可能少重复
{M,}?	重复M次以上，但尽可能少重复

2.关于正则表达式的函数

Python提供了re模块来支持正则表达式相关操作，下面是re模块中的核心函数。

函数	说明
compile(pattern, flags=0)	编译正则表达式返回正则表达式对象
match(pattern, string, flags=0)	用正则表达式匹配字符串成功返回匹配对象否则返回None
search(pattern, string, flags=0)	搜索字符串中第一次出现正则表达式的模式成功返回匹配对象否则返回None
split(pattern, string, maxsplit=0, flags=0)	用正则表达式指定的模式分隔符拆分字符串返回列表
sub(pattern, repl, string, count=0, flags=0)	用指定的字符串替换原字符串中与正则表达式匹配的模式可以用count指定替换的次数
fullmatch(pattern, string, flags=0)	match函数的完全匹配（从字符串开头到结尾）版本
findall(pattern, string, flags=0)	查找字符串所有与正则表达式匹配的模式返回字符串的列表
finditer(pattern, string, flags=0)	查找字符串所有与正则表达式匹配的模式返回一个迭代器
purge()	清除隐式编译的正则表达式的缓存
re.I / re.IGNORECASE	忽略大小写匹配标记
re.M / re.MULTILINE	多行匹配标记

3.验证QQ号是否有效

要求：用户名必须由字母、数字或下划线构成且长度在6~20个字符之间，QQ号是5~12的数字且首位不能为0

import re
def main():
    username = input(‘请输入用户名：‘)
    qq = input(‘请输入QQ号：‘)
    # match函数第一个参数是正则表达式，第二个参数是字符串对象
    m1 = re.match(r‘^[0-9a-zA-Z_]{6,20}$‘,username)
    if not m1:
        print(‘请输入有效的用户名。‘)
    m2 = re.match(r‘^[1-9]\d{4,11}$‘,qq)
    if not m2:
        print(‘请输入有效的QQ号‘)
    if m1 and m2:
        print(‘你输入的信息是有效的！‘)
if __name__ == ‘__main__‘:
    main()

4.查找手机号

表示以1开头，第二位可能是3/4/5/6/7/8等的任意一个，在加上后面的\d表示数字[0-9]的9位，总共加起来11位结束

import re

def main():
    # 创建正则表达式对象 使用了前瞻和回顾来保证手机号前后不应该出现数字
    # 表示以1开头，第二位可能是3/4/5/6/7/8等的任意一个，在加上后面的\d表示数字[0-9]的9位，总共加起来11位结束。
    pattern = re.compile(r‘(?<=\D)1[3456789]\d{9}(?=\D)‘)
    sentence = ‘‘‘
    重要的事情说8130123456789遍，小明的手机号是16637809509，我的手机号是13512346789这个靓号，
    不是15600998765，也是110或119，王大锤的手机号才是15600998765。
    ‘‘‘
    # 查找所有匹配并保存到一个列表中
    mylist = re.findall(pattern,sentence)
    print(mylist)
    print(‘--------华丽的分隔线--------‘)
    # 通过迭代器取出匹配对象并获得匹配的内容
    for temp in pattern.finditer(sentence):
        print(temp.group())
    print(‘--------华丽的分隔线--------‘)
    # 通过search函数指定搜索位置找出所有匹配
    m = pattern.search(sentence)
    while m:
        print(m.group())
        m = pattern.search(sentence,m.end())

if __name__ == ‘__main__‘:
    main()

5.替换字符串的不良内容

屏蔽字符串的不良内容

import re
def main():
    sentence = ‘你丫是傻叉吗? 我操你大爷的. Fuck you.‘
    purified = re.sub(‘[操艹]|fuck|shit|傻[比屄逼叉缺吊屌]|煞笔‘,
                      ‘*‘,sentence,flags=re.IGNORECASE)
    print(purified)# 你丫是*吗? 我*你大爷的. * you.
if __name__ == ‘__main__‘:
    main()

6.拆分长字符串

import re
def main():
    poem = ‘床前明月光，疑是地上霜。举头望明月，低头思故乡。‘
    sentence_list = re.split(r‘[ ，。，。]‘,poem)
    while ‘‘ in sentence_list:
        sentence_list.remove(‘‘)
    print(sentence_list)
if __name__ == ‘__main__‘:
    main()

python学习（12）使用正则表达式

标签：字符集空白 style att 信息 color str love you ignore

原文地址：https://www.cnblogs.com/ma1998/p/12939569.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行