python 正则表达式（一）

时间：2014-11-20 18:23:42 阅读：185 评论：0 收藏：0 [点我收藏+]

ｐｙｔｈｏｎ 2.7.3

　　正则表达式：根据自己的需要定义字符串，与其他的字符串做匹配，如网页数据提取：自定义一个规则将网页中的内容按自己的规则提取出需要的东西。

目前在python 中，正则的使用通过re模块来实现，help(re) 查看详细介绍.

　　可以为想要匹配的相应字符串集指定规则；该字符串集可能包含英文语句、e-mail地址、TeX命令或任何你想搞定的东西。你也可以使用 RE 以各种方式来修改或分割字符串。正则表达式模式被编译成一系列的字节码，然後由用 C 编写的匹配引擎执行。在高级用法中，也许还要仔细留意引擎是如何执行给定 RE ，如何以特定方式编写 RE 以令生产的字节码运行速度更快。

############################ 元字符　###########################

一：字符匹配

　　１．普通字符匹配

　　　　123和123匹配

　　２．元字符匹配（help(re)中有详细说明）

"." 表示任意字符
"^ " 表示字符串的起始、行首：>>>str=‘123,321,234,432,123‘

　　　　　　　　　　　　　 >>> ss=‘123‘

　　　　　　　　　　　　　 >>> re.findall(s,ss)

　　　　　　　　　　　　　　[‘123‘, ‘123‘]

　　　　　　　　　　　　　 >>>ss=‘^123‘

　　　　　　　　　　　　　 >>>re.findall(s,ss)

　　　　　　　　　　　　　　[‘123‘] #123是行首的那个

　　　　　　　　　　　　
"$" 表示字符串的结束　　

　　　　　　　　　　　　　 >>>ss=‘123$‘　　将匹配最后的那个123

+ 　　表示匹配一或更多次

＊　　匹配０或更多次

？　　表示匹配零次或一次－
*?, +?, ?? 符合条件的情况下，匹配的尽可能少//限制*,+,?匹配的贪婪性
{m} 匹配此前的字符，重复m次　　如：r=‘010-\d{8}‘ 将表示010-后面需要８个０到９的数字
{m,n} m到n次，m，n可以省略

举个例子 ‘a.*b’ 表示a开始，b结束的任意字符串
a{5} 匹配连续5个a

[　]

　》　表示一系列字符 [abcd] 表a，b，c，d 　注：ss = r‘a[bcd]ef‘ ,将表示ss=abef 或acef或adef

　　　　[0-9]　表示0到９　[a]

　》　补集匹配不在区间内的字符：[^123] ,表示将匹配除了123的其它字符

| A|B 表示A或者B , AB为任意的正则表达式另外|是非贪婪的如果A匹配，则不找B
(…) 这个括号的作用要结合实例才能理解，用于提取信息

\d [0-9] 匹配任何十进制数 [0-9]
\D 非 \d 匹配任何非十进制数　[^0-9]
\s 表示空字符　　[\t\n\r\f\v]
\S 非空字符　　 [^\t\n\r\f\v]
\w 匹配任何字母数字字符[a-zA-Z0-9_]
\W 非 \w

参考：http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html

################################################################################

python 正则表达式（一）

标签：blog http ar 使用 sp 数据 on log bs

原文地址：http://www.cnblogs.com/spacepirate/p/4111081.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行