标签:
终极目标:把http://btkitty.co/这个网站上面的种子信息根据输入的关键词,下载到电脑上
征战纪实:
我输入的需查找字符,被这个网站用某种方式,进行了转换,变成了别的字符,我通过F12,观察到在哪儿第一次出现这个转化后的字符,发现是由http://btkitty.co/这个网址,通过Post方式,并在附带headers的情况下,得到的。但是,我最开始得到的内容为乱码,原来是网页进行了gzip压缩,gzip压缩的形式如下:
‘Accept-Encoding‘:‘gzip, deflate‘
先要解压缩,才行。原本的乱码如下:
???,?q? ?ul???=>?G^?9??????/,??/?A??qB?`($.\??q? ??)”??Wm?‘???YeTQ?$Fq+V?B?A?N8
我的程序主要代码段如下:
import gzip
from StringIO import StringIO
post_data = urllib.urlencode(data)
data = None
req = urllib2.Request(url,post_data,header)
reponse = urllib2.urlopen(req)
print reponse.info().get("Content-Encoding")
temp = StringIO(reponse.read())
ok = gzip.GzipFile(fileobj=temp)
这样就能得到,转化后的字符了。
此战役,本人已彻底攻克。
标签:
原文地址:http://www.cnblogs.com/gongbo/p/5125988.html