码迷,mamicode.com
首页 > 其他好文 > 详细

爬虫实战之征服:Btkitty

时间:2016-01-14 13:58:38      阅读:177      评论:0      收藏:0      [点我收藏+]

标签:

终极目标:把http://btkitty.co/这个网站上面的种子信息根据输入的关键词,下载到电脑上

 征战纪实:

  我输入的需查找字符,被这个网站用某种方式,进行了转换,变成了别的字符,我通过F12,观察到在哪儿第一次出现这个转化后的字符,发现是由http://btkitty.co/这个网址,通过Post方式,并在附带headers的情况下,得到的。但是,我最开始得到的内容为乱码,原来是网页进行了gzip压缩,gzip压缩的形式如下:

‘Accept-Encoding‘:‘gzip, deflate‘

先要解压缩,才行。原本的乱码如下:

???,?q? ?ul???=>?G^?9??????/,??/?A??qB?`($.\??q? ??)”??Wm?‘???YeTQ?$Fq+V?B?A?N8
我的程序主要代码段如下:
import gzip
from StringIO import StringIO
post_data = urllib.urlencode(data)
data = None
req = urllib2.Request(url,post_data,header)
reponse = urllib2.urlopen(req)
print reponse.info().get("Content-Encoding")
temp = StringIO(reponse.read())
ok = gzip.GzipFile(fileobj=temp)
这样就能得到,转化后的字符了。
此战役,本人已彻底攻克。

爬虫实战之征服:Btkitty

标签:

原文地址:http://www.cnblogs.com/gongbo/p/5125988.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!