标签:
我不知道为什么会选择python去学习,可能和前阵子有在v2ex看到有同学用python抓磁力的有关,今天12点起床闲来无事,继续学习吧。
本来也想找个磁力站练练手抓抓magnet的,打开收藏夹的几个站点才发现URL全都加密了。一个个找,终于发现一个可以联手的网站。嘻嘻。
1 #!/usr/bin/env python 2 3 #coding :UTF-8 4 __auther__ = ‘mashaz‘ 5 import urllib,urllib2 6 import sys 7 import re 8 print ‘Thank ****** a lot‘ 9 url = ‘http://www.******.xyz/en/search/‘ 10 key = sys.argv[1] 11 key_len=len(key) 12 unicode(key,‘utf-8‘) 13 url = url + key 14 req = urllib2.Request(url) 15 req.add_header(‘User-Agent‘,‘Mozilla 5.10‘) 16 fo = urllib2.urlopen(req) 17 html = str(fo.read()) 18 #print html 19 20 wait = re.compile(r‘http://d8c5bb17\.ds\.******\.xyz/digital/video/[a-z0-9]+/[a-z0-9]+\.jpg‘) 21 image1 =re.findall(wait,html) 22 #print image1[0] 23 24 r_detail = re.compile(r‘http://www\.******\.xyz/en/movie/[a-zA-Z0-9]+‘) 25 image_detail = re.findall(r_detail,html) 26 s = image_detail[0] 27 #print s 28 #s detail_web 29 30 req2 = urllib2.Request(s) 31 req.add_header(‘User-Agent‘,‘Mozilla 5.10‘) 32 fod = urllib2.urlopen(req2) 33 html2 = str(fod.read()) 34 if(key_len==7): 35 wait2 = re.compile(r‘http://d8c5bb17\.ds\.******\.xyz/digital/video/[a-zA-Z0-9]+/[a-zA-Z0-9]{8}pl\.jpg‘) 36 if(key_len==8): 37 wait2 = re.compile(r‘http://d8c5bb17\.ds\.******\.xyz/digital/video/[a-zA-Z0-9]+/[a-zA-Z0-9]{9}pl\.jpg‘) 38 big_image = re.findall(wait2,html2) 39 #print big_image[0] 40 #print html2 41 42 def getImage(addr): 43 u = urllib.urlopen(addr) 44 data=u.read() 45 splitPath = addr.split(‘/‘) 46 fName = splitPath.pop() 47 print fName 48 49 f= open(fName,‘wb‘) 50 f.write(data) 51 f.close() 52 53 addr = big_image[0] 54 getImage(addr)
由于比较少儿不宜,域名我已省去,有兴趣的朋友可以pm我或者稍加修改换成其他站点都OK啦
加上今天的学习,应该学习Python有24小时左右了,加油。
标签:
原文地址:http://www.cnblogs.com/mashaz/p/5182507.html