数据量:3,289,329 人。 数据采集工具:分布式 python 爬虫 分析工具:ElasticSearch + Kibana 分析角度:地理位置、男女比例、各类排名、所在高校、活跃程度等。 请各位注意: 以下所有分析结果都基于我抓取到的这300万用户的个人信息,非权威分析,仅供参考。 数据抓取 ...
分类:
编程语言 时间:
2018-06-10 00:31:16
阅读次数:
575
0x01 常见的反爬虫 这几天在爬一个网站,网站做了很多反爬虫工作,爬起来有些艰难,花了一些时间才绕过反爬虫。在这里把我写爬虫以来遇到的各种反爬虫策略和应对的方法总结一下。 从功能上来讲,爬虫一般分为数据采集,处理,储存三个部分。这里我们只讨论数据采集部分。 一般网站从三个方面反爬虫:用户请求的He ...
分类:
其他好文 时间:
2018-06-10 00:30:07
阅读次数:
168
前几天给大家分享了如何利用Python词云和wordart可视化工具对朋友圈数据进行可视化,利用Python网络爬虫抓取微信好友数量以及微信好友的男女比例,以及利用Python网络爬虫抓取微信好友的所在省位和城市分布及其可视化,感兴趣的小伙伴可以点击进去看看详情,内容方面不是很难,即使你是小白,也可以通过代码进行实现抓取。今天,小编继续给大家分享如何利用Python网络爬虫抓取微信好友的签名及其可
分类:
微信 时间:
2018-06-03 00:59:07
阅读次数:
222
北京区块链交易系统开发|北京数字资产交易系统开发|区块链数据共享【本文是由区块链胡顾问yzrhuhang编辑,有需求请搜索yzrhuhang添加】数字资产的产生主要有两个途径,一是基于区块链原生的数字资产,二是对现有资产进行数字化之后得到的数字资产。未来,个人资产配置的一个主要方向将呈现为对数字资产 ...
分类:
其他好文 时间:
2018-05-31 16:10:50
阅读次数:
144
摘要:2010年,我参加了湖南某矿业的污水监控平台的开发,在这个项目中,我担任系统设计和开发的工作。这个系统主要是对辰州矿业的排污进行数据采集,实时监控,超标报警,数据统计和管理。本文结合作者的实践,以辰州矿业监控平台弟弟系统架构建模为例,论述了4+1视图模型在工作中的运用。本论文先介绍4+1模型, ...
分类:
其他好文 时间:
2018-05-28 17:25:24
阅读次数:
201
前几天给大家分享了如何利用Python网络爬虫抓取微信好友数量以及微信好友的男女比例,感兴趣的小伙伴可以点击链接进行查看。今天小编给大家介绍如何利用Python网络爬虫抓取微信好友的省位和城市,并且将其进行可视化,具体的教程如下。爬取微信好友信息,不得不提及这个itchat库,简直太神奇了,通过它访问微信好友基本信息可谓如鱼得水。下面的代码是获取微信好友的省位信息:程序运行之后,需要扫描进行授权登
分类:
微信 时间:
2018-05-26 11:50:13
阅读次数:
249
前几天给大家分享了如何利用Python网络爬虫抓取微信好友数量以及微信好友的男女比例,感兴趣的小伙伴可以点击链接进行查看。今天小编给大家介绍如何利用Python网络爬虫抓取微信好友的省位和城市,并且将其进行可视化,具体的教程如下。爬取微信好友信息,不得不提及这个itchat库,简直太神奇了,通过它访问微信好友基本信息可谓如鱼得水。下面的代码是获取微信好友的省位信息:程序运行之后,需要扫描进行授权登
分类:
微信 时间:
2018-05-26 11:48:17
阅读次数:
223
20154313刘文亨EXP8 Web基础 EXP8 Web基础 一、基础问题回答 1.什么是表单? 表单:表单在网页中主要负责数据采集功能。 基本组成部分: 表单标签:这里面包含了处理表单数据所用CGI程序的URL以及数据提交到服务器的方法。 表单域:包含了文本框、密码框、隐藏域、多行文本框、复选 ...
分类:
其他好文 时间:
2018-05-25 14:05:23
阅读次数:
197
EXP8 Web基础 一、基础问题回答 1.什么是表单? 表单:表单在网页中主要负责数据采集功能。 基本组成部分: 表单标签:这里面包含了处理表单数据所用CGI程序的URL以及数据提交到服务器的方法。 表单域:包含了文本框、密码框、隐藏域、多行文本框、复选框、单选框、下拉选择框和文件上传框等。 表单 ...
分类:
Web程序 时间:
2018-05-23 22:45:22
阅读次数:
345
其实不太想用opentsdb,一直以来用influxdb+grafana挺方便的,而且tsdb依赖hbase,虽说容量和速度有保证,但是分布式系统对于一个监控平台来说,终归还是有些重了,出问题定位更繁琐,但领导说用那就用吧。在这里必须吐一下OpenTSDB和Tcollector的文档更新,太落后,看官方文档根本找不到配置文件的位置。最后还得看源码,尤其是TCollector,这个tsdb官方推出的
分类:
数据库 时间:
2018-05-23 21:14:32
阅读次数:
387