码迷,mamicode.com
首页 > 其他好文 > 详细

通过Scrapy抓取QQ空间

时间:2016-06-10 19:02:10      阅读:350      评论:0      收藏:0      [点我收藏+]

标签:

毕业设计题目就是用Scrapy抓取QQ空间的数据,最近毕业设计弄完了,来总结以下:

首先是模拟登录的问题:

由于Tencent对模拟登录比较讨厌,各个防备,而本人能力有限,所以做的最简单的,手动登录后,获得Cookie信息,然后携带访问。

其次是数据接口:

通过对QQ空间的网页分析,数据主要是通过Json的形式返回。选择了两个数据接口进行数据抓取

每个QQ的详细信息接口: "http://user.qzone.qq.com/p/base.s8/cgi-bin/user/cgi_userinfo_get_all?uin="+str(self.currentQQ)+"&vuin=QQ&fupdate=1&rd=0.007898919197098397&g_tk="+GTK

每个QQ的说说信息接口:"http://taotao.qq.com/cgi-bin/emotion_cgi_msglist_v6?uin="+str(self.currentQQ)+"&ftype=0&sort=0&pos=0&num=40&replynum=100&g_tk="+str(self.getOldGTK(self.skey))+"&callback=_preloadCallback&code_version=1&format=json&need_private_comment=1"

最后使用Scrapy完成网络请求,并将数据存入数据库

最终进行了简单的统计:

技术分享技术分享技术分享技术分享

通过Scrapy抓取QQ空间

标签:

原文地址:http://www.cnblogs.com/rw-rongwei/p/5573973.html

(1)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!