爬虫实战之征服：Btkitty

时间：2016-01-14 13:58:38 阅读：177 评论：0 收藏：0 [点我收藏+]

标签：

终极目标：把http://btkitty.co/这个网站上面的种子信息根据输入的关键词，下载到电脑上

征战纪实：

　　我输入的需查找字符，被这个网站用某种方式，进行了转换，变成了别的字符，我通过F12，观察到在哪儿第一次出现这个转化后的字符，发现是由http://btkitty.co/这个网址，通过Post方式，并在附带headers的情况下，得到的。但是，我最开始得到的内容为乱码，原来是网页进行了gzip压缩，gzip压缩的形式如下：

‘Accept-Encoding‘:‘gzip, deflate‘

先要解压缩，才行。原本的乱码如下：

???,?q? ?ul???=>?G^?9??????/,??/?A??qB?`($.\??q? ??)”??Wm?‘???YeTQ?$Fq+V?B?A?N8
我的程序主要代码段如下：
import gzip

from StringIO import StringIO

post_data = urllib.urlencode(data)
data = None
req = urllib2.Request(url,post_data,header)
reponse = urllib2.urlopen(req)
print reponse.info().get("Content-Encoding")
temp = StringIO(reponse.read())
ok = gzip.GzipFile(fileobj=temp)
这样就能得到，转化后的字符了。
此战役，本人已彻底攻克。

爬虫实战之征服：Btkitty

标签：

原文地址：http://www.cnblogs.com/gongbo/p/5125988.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行