标签:友好 请求 redis 有一个 另一个 iba 编码 www. targe
爬虫:python27 +requests+json+bs4+time
1.性别分布
可见知乎的用户男性颇多。
2.粉丝最多的top30
粉丝最多的前三十名:依次是张佳玮、李开复、黄继新等等,去知乎上查这些人,也差不多这个排名,说明爬取的数据具有一定的说服力。
3.写文章最多的top30
爬虫架构图如下:
说明:
爬取一个url:
解析内容:
存本地文件:
代码说明:
源码下载:点击这里,记得star哦!
关于elk的套件安装就不讨论了,具体见官网就行了。网站:https://www.elastic.co/
另外logstash的配置文件如下:
从爬取的用户数据可分析的地方很多,比如地域、学历、年龄等等,我就不一一列举了。另外,我觉得爬虫是一件非常有意思的事情,在这个内容消费升级的年代,如何在广阔的互联网的数据海洋中挖掘有价值的数据,是一件值得思考和需不断践行的事情。最后,本文仅用作交流学习。如果知乎告知我侵权,我会立刻删除本文。
标签:友好 请求 redis 有一个 另一个 iba 编码 www. targe
原文地址:https://www.cnblogs.com/yujingyua/p/9809775.html