首页 > 其他好文 > 详细

如何爬取了知乎用户信息，并做了简单的分析

时间：2018-10-18 13:13:48 阅读：248 评论：0 收藏：0 [点我收藏+]

标签：友好请求 redis 有一个另一个 iba 编码 www. targe

爬虫：python27 +requests+json+bs4+time

分析工具： ELK套件
开发工具：pycharm

1.性别分布

0 绿色代表的是男性 ^ . ^
1 代表的是女性
-1 性别不确定

可见知乎的用户男性颇多。

技术分享图片

2.粉丝最多的top30

粉丝最多的前三十名：依次是张佳玮、李开复、黄继新等等，去知乎上查这些人，也差不多这个排名，说明爬取的数据具有一定的说服力。

技术分享图片

3.写文章最多的top30
技术分享图片

爬虫架构图如下：
技术分享图片

说明：

选择一个活跃的用户（比如李开复）的url作为入口url.并将已爬取的url存在set中。
抓取内容，并解析该用户的关注的用户的列表url，添加这些url到另一个set中，雅思培训一般多少钱并用已爬取的url作为过滤。
解析该用户的个人信息，并存取到本地磁盘。
logstash取实时的获取本地磁盘的用户数据，并给elsticsearch
kibana和elasticsearch配合，将数据转换成用户友好的可视化图形。

五.编码

爬取一个url:

解析内容：

存本地文件：

代码说明：

需要修改获取requests请求头的authorization。
需要修改你的文件存储路径。

源码下载：点击这里，记得star哦！

打开chorme，打开https://www.zhihu.com/，
登陆，首页随便找个用户，进入他的个人主页，F12(或鼠标右键，点检查)
点击关注，刷新页面，见图：

技术分享图片

可增加线程池，提高爬虫效率
存储url的时候我才用的set(),并且采用缓存策略，最多只存2000个url，防止内存不够，其实可以存在redis中。
存储爬取后的用户我说采取的是本地文件的方式，更好的方式应该是存在mongodb中。
对爬取的用户应该有一个信息的过滤，比如用户的粉丝数需要大与100或者参与话题数大于10等才存储。防止抓取了过多的僵尸用户。

关于elk的套件安装就不讨论了，具体见官网就行了。网站：https://www.elastic.co/

另外logstash的配置文件如下：

从爬取的用户数据可分析的地方很多，比如地域、学历、年龄等等，我就不一一列举了。另外，我觉得爬虫是一件非常有意思的事情，在这个内容消费升级的年代，如何在广阔的互联网的数据海洋中挖掘有价值的数据，是一件值得思考和需不断践行的事情。最后，本文仅用作交流学习。如果知乎告知我侵权，我会立刻删除本文。

如何爬取了知乎用户信息，并做了简单的分析

标签：友好请求 redis 有一个另一个 iba 编码 www. targe

原文地址：https://www.cnblogs.com/yujingyua/p/9809775.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

更多

友情链接

兰亭集智国之画百度统计站长统计阿里云 chrome插件新版天听网

关于我们 - 联系我们 - 留言反馈

© 2014 mamicode.com 版权所有联系我们:gaon5@hotmail.com

迷上了代码！