python 简单爬取图片

时间：2017-04-13 20:52:05 阅读：323 评论：0 收藏：0 [点我收藏+]

标签：open 不能 jpg img span log compile request python

现在的网站大多做了反爬处理，找一个能爬的网站还真不容易。

高清的图片很难爬，只能爬一些网站开始录目的小文件图片。

主要要做好隐藏。这里就做一个比较简单的代码试一试

 1 import urllib.request
 2 import re
 3 
 4 def gethtml(url):
 5     page=urllib.request.urlopen(url)
 6     html=page.read().decode(‘utf-8‘)
 7 
 8     return html
 9 
10 def getimg(html):
11     
12     a=re.compile(r‘src="(.+?\.jpg)"‘)
13     tp=a.findall(html)
14     x=0
15     
16     for img in tp:
17         urllib.request.urlretrieve(img,‘d:/tupian/%s.jpg‘ % x)
18         x+=1
19 
20     
21 url="http://www.meituba.com/yijing/28426.html"
22 
23 html=gethtml(url)
24 getimg(html)

关键是下级目录的高清大图就不能这样爬了，除了要使用for循环遍历url，还要模拟游览器访问。

这里就不说了，（笔记）

python 简单爬取图片

标签：open 不能 jpg img span log compile request python

原文地址：http://www.cnblogs.com/jjj-fly/p/6705925.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行