码迷,mamicode.com
首页 > 编程语言 > 详细

python正则表达式 1

时间:2014-09-04 03:05:28      阅读:173      评论:0      收藏:0      [点我收藏+]

标签:正则表达式   compile   re   python   

re模块提供了一个郑则表达式的引擎接口,可以让你的Re string变异成对象并用它来进行匹配,这样效率比较高。附上例子让我们一块体验一下吧。


以下是我写的类似与爬虫的小脚本,供大家参考


#!/usr/bin/python

# coding=utf-8


import urllib

import re

import os


def getHtmlData():

    return urllib.urlopen("http://news.cnblogs.com/n/93182").read()


def getImageList():

    #reg1 = re.compile(r‘(http.*jpg)\" t‘)

    reg2 = re.compile(r‘src=\"(http.*jpg)\"‘)

    text = getHtmlData()

    #list1 = reg1.findall(text)

    list2 = reg2.findall(text)

    x = 30

    print os.getcwd()

    for imageUrl in list2:

        print imageUrl

        urllib.urlretrieve(imageUrl, r"jpg/%s.jpg" % x) 

        x+=1


getImageList()


reg2 = re.compile(r‘src=\"(http.*jpg)\"‘)匹配 “src=”开头,“结尾的字符,小括号中的http.*jpg是要索取的内容,把这样一个表达式编译成一个对象


例子中网页“http://news.cnblogs.com/n/93182”内容在附件里。这个小脚本的功能是:查找页面中高清图片,并下载保存到当前目录的jpg文件夹下。


本文出自 “在路上。。。” 博客,请务必保留此出处http://yongbird.blog.51cto.com/7554149/1548471

python正则表达式 1

标签:正则表达式   compile   re   python   

原文地址:http://yongbird.blog.51cto.com/7554149/1548471

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!