Python-爬虫初学

时间：2015-10-16 15:10:12 阅读：278 评论：0 收藏：0 [点我收藏+]

标签：

   #爬取网站中的图片
 1 import re     #正则表达式库
 2 import urllib #url链接库
 3 
 4 def getHtml(url):
 5     page = urllib.urlopen(url) #打开链接
 6     html = page.read()         #像读文本一样读取网页内容
 7     return html
 8 
 9 def getImg(html):
10     reg = r‘<img src="(.+?\.png)" alt‘   #匹配表达式
11     imgre = re.compile(reg)              #编译成正则表达式对象
12     imglist =re.findall(imgre, html)     #查找全部满足匹配的
13     x = 0
14     for imgurl in imglist:
15         print "imgurl:", imgurl
16         urllib.urlretrieve("http://www.uestc.edu.cn/" + imgurl, ‘%d.png‘ % x)  #依次遍历下载，源链接用的是相对地址，所以添加前缀
17         x += 1
18     
19 html = getHtml("http://www.uestc.edu.cn/")
20 print getImg(html)
21 #print html

参考学习链接：

http://www.cnblogs.com/fnng/p/3576154.html

Python-爬虫初学

标签：

原文地址：http://www.cnblogs.com/zhonghuasong/p/4885140.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行