标签:open 不能 jpg img span log compile request python
现在的网站大多做了反爬处理,找一个能爬的网站还真不容易。
高清的图片很难爬,只能爬一些网站开始录目的小文件图片。
主要要做好隐藏。这里就做一个比较简单的代码试一试
1 import urllib.request 2 import re 3 4 def gethtml(url): 5 page=urllib.request.urlopen(url) 6 html=page.read().decode(‘utf-8‘) 7 8 return html 9 10 def getimg(html): 11 12 a=re.compile(r‘src="(.+?\.jpg)"‘) 13 tp=a.findall(html) 14 x=0 15 16 for img in tp: 17 urllib.request.urlretrieve(img,‘d:/tupian/%s.jpg‘ % x) 18 x+=1 19 20 21 url="http://www.meituba.com/yijing/28426.html" 22 23 html=gethtml(url) 24 getimg(html)
关键是下级目录的高清大图就不能这样爬了,除了要使用for循环遍历url,还要模拟游览器访问。
这里就不说了,(笔记)
标签:open 不能 jpg img span log compile request python
原文地址:http://www.cnblogs.com/jjj-fly/p/6705925.html