python 贪婪非贪婪匹配

时间：2015-03-07 01:05:12 阅读：266 评论：0 收藏：0 [点我收藏+]

标签：

python re模块还是需要重新学习。
python readline 和 readlines(), readline() , read() 三者之间的区别，以前一直都不清楚，现在搞清楚是怎么回事了。
readlines() 可以一起显示出整个文件，这个也是迭代显示的，需要追行显示，迭代器的指针会被消耗的。

python 中的正则是匹配换行以外的所有的字符。.* 是匹配不了所有的字符的。在某些情况下，我的结论是正确的，但是在某些情况下，我的结论又是错误的。刚才遇到的问题，现在终于知道是怎么回事了，原来是贪婪匹配和非贪婪匹配的问题，对于这种情况，我也是相对迟钝了。
save.html 是我随便抓来的一个html，我要从这个html中抓出所有的 javascript代码段。

def getcss():

    fh = open(‘save.html‘)
    html =fh.read()

    #js_pattern = re.compile(r‘<script .*?">‘);
    ans = re.findall(r‘<script .*?>.*?</script>‘,html,re.S)

    src_pattern = re.compile(r‘^"http.*"‘);
    for i in ans:
        #ret = re.findall(src_pattern,i)
        print i

通过上面的程序，我得到了下面的结果。源文件是一个html，格式一般，这些代码段是分行的，我的目的是找出所有的代码段。下面做一个简单的解释。在尝试的过程中，我试了好几种正则表达式，下面讲一下我遇到的问题。
技术分享
实现是跨行匹配的问题，.*是无法匹配\n的，所以如果标签分布在不同的行，那么如何匹配中间的内容呢。为了解决跨行匹配的问题，找到了这个解决方案,可以用([\d\D]*)或([\w\W]*) 或([\s\S]*) 来代替。
然后又遇到了问题，我的正则总是会匹配太多的内容，最后发现，我的匹配模式是按照最多内容匹配的。默认的匹配模式是贪婪匹配，所以如果用了.*的话，总会匹配更多的内容。所以找到了这个参考。python贪婪匹配看到了贪婪匹配和非贪婪匹配的核心在一个?上，re.S标记是多行匹配的关键，类似的标记还有re.M标记，这个是一行的标记。re.M：^$标志将会匹配每一行，默认^和$只会匹配第一行,文章里有几个例子还是很不错的，值得仔细研究一下,建议自己执行一下这些代码，看下结果，如果这些都很清楚，那么正则掌握的还算不错。

re.findall(r"a(\d+?)", "a23b")
re.findall(r"a(\d+)", "a23b")
re.findall(r"a(\d+)b.+a(\d+)b", "a23b\na34b")
re.findall(r"a(\d+)b.+a(\d+)b", "a23b\na34b", re.S)

最后，实现了上面我提出的需求，主要利用了跨行匹配和非贪婪匹配。

python 贪婪非贪婪匹配

标签：

原文地址：http://blog.csdn.net/typeof_/article/details/44087219

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

python 贪婪 非贪婪 匹配

python 贪婪非贪婪匹配