QQ空间Python爬虫（1）---网站分析

时间：2017-11-22 17:50:11 阅读：327 评论：0 收藏：0 [点我收藏+]

标签：准备工作 qq空间 safari es2017 secure roi requests 5.0

闲来无事准备写一个爬虫来爬取自己QQ空间的所有说说和图片-。-

首先准备工作，进入手机版QQ空间，分析页面：

技术分享图片

我们发现，手机版空间翻页模式是采用瀑布流翻页（查看更多），而非传统翻页模式，所以我们需要来分析一下点击“查看更多”时发送的请求：

技术分享图片

可以发现，上面红框中的xhr就是点击“查看更多”时发送的请求，我们再进一步分析：

技术分享图片

如图，红框中的request url和request headers是我们需要的信息，首先我们在代码中加入请求头headers：

1 headers = {
2     ‘accept‘: ‘text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8‘,
3     ‘accept-encoding‘: ‘gzip, deflate, br‘,
4     ‘accept-language‘: ‘zh-CN,zh;q=0.8‘,
5     ‘cache-control‘: ‘max-age=0‘,
6     ‘cookie‘: ‘xxxxxx‘,
7     ‘upgrade-insecure-requests‘: ‘1‘,
8     ‘user-agent‘: ‘Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Mobile Safari/537.36‘
9 }