码迷,mamicode.com
首页 > 其他好文 > 详细

抓取百万知乎用户数据之爬取思路

时间:2016-12-28 01:16:29      阅读:498      评论:0      收藏:0      [点我收藏+]

标签:开发者   居住   列表   blog   页面   下载   开发   技术   行业   

一.如何获取到用户的信息

前往用户主页,以轮子哥为例

技术分享

从中可以看到用户的详细信息,教育经历主页,主修。所在行业,公司,关注量,回答数,居住地等等。打开开发者工具栏查看网络,即可找到,一般是html或者json这个数据在Html页面里。

URL为https://www.zhihu.com/people/excited-vczh/answers,excited-vczh是轮子哥的id,我们只要拿到某个人的Id就可以获取详细信息了。

二.信息藏在哪

技术分享

对这个json数据进行解析,即可找到用户信息

技术分享

根据URL下载Html页面,解析json就可以获取用户信息了

三.如何获取更多的用户Id

技术分享

每个人都有自己的关注列表,关注的人和被关注的人,抓取这些人再到这些人主页去抓关注列表,这样就不抽找不到用户了

技术分享

 

  这里还有nexturl,这个链接可以保存下来。如果isend为true的化就是列表翻到头了,url就不必保存下来

抓取百万知乎用户数据之爬取思路

标签:开发者   居住   列表   blog   页面   下载   开发   技术   行业   

原文地址:http://www.cnblogs.com/zuin/p/6227834.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!