工具准备 在开始之前,请确保 scrpay 正确安装,手头有一款简洁而强大的浏览器, 若是你有使用 postman 那就更好了。 使用以上命令生成知乎爬虫,代码如下: 有一点切记,不要忘了启用 Cookies, 切记切记 : 模拟登陆 过程如下: 进入登录页,获取 Header 和 Cookie 信 ...
分类:
其他好文 时间:
2019-01-24 14:32:34
阅读次数:
110
总览 今天我们就来小用一下Jsoup,从一个整体的角度来看一看爬虫 一个基本的爬虫框架包括: [x] 解析网页 [x] 失败重试 [x] 抓取内容保存至本地 [x] 多线程抓取 分模块讲解 将上述基本框架的模块按逻辑顺序讲解,一步一步复现代码实现过程 失败重试 一个好的模块必然有异常捕捉和处理 在之 ...
分类:
Web程序 时间:
2019-01-23 15:35:43
阅读次数:
326
Centos7 部署知乎出现上图问题 解决方法: [root@web02 ~]# vim /etc/php.ini #修改配置文件 session.auto_start = 0 #这条设置成0 [root@web02 ~]# systemctl restart php-fpm.service #重启 ...
分类:
其他好文 时间:
2019-01-22 17:34:55
阅读次数:
162
用python爬取知乎的热榜,获取标题和链接。 环境和方法:ubantu16.04、python3、requests、xpath 1.用浏览器打开知乎,并登录 2.获取cookie和User—Agent 3.上代码 4.爬取结果 ...
分类:
编程语言 时间:
2019-01-21 12:17:50
阅读次数:
432
联系我1.Q群【Java开发技术交流】:https://jq.qq.com/?_wv=1027&k=5UB4P1T2.完整博客链接:www.shishusheng.com3.知乎:http://www.zhihu.com/people/shi-shu-sheng-4.gayhub:https://github.com/Wasabi12341线程池的好处线程使应用能够更加充分合理地协调利用C
分类:
编程语言 时间:
2019-01-21 11:11:22
阅读次数:
149
我们先来ping知乎的域名,然后可以得到响应的服务器的ip 之后我们用浏览器来访问这个ip,结果如下 被拒绝访问了。 而用ip来访问百度,则没啥问题,如图 访问知乎的时候, 域名可以访问,ip不可以访问,这究竟是为啥? 我们知道,ipv4的ip地址是非常有限的,如果每个人都想拥有一个全球ip,那肯定 ...
分类:
其他好文 时间:
2019-01-19 22:13:03
阅读次数:
232
平时爱逛知乎,收藏了不少别人推荐的数据分析、机器学习相关的微信公众号(这里就不列举了,以免硬广嫌疑)。但是在手机微信上一页页的翻阅历史文章浏览,很不方便,电脑端微信也不方便。 所以我就想有什么方法能否将这些公众号文章下载下来。这样的话,看起来也方便。但是网上的方法要么太复杂(对于我这个爬虫入门新手来 ...
分类:
微信 时间:
2019-01-15 15:41:57
阅读次数:
320
业界使用架构京东OpenstackIcehouse+docker1.3+OVS2.1.3/2.3.2+Centos6.6==>K8s+Docker+Flannel+Neutron+OVS+DPDK+JFS某个容器失效,自动触发RC(保持IP丌变“迁移”)OVS-VLAN知乎Git+Jenkins(CI/CD)+mesos+自研framework+group(隔离)+Consul+haprox
分类:
其他好文 时间:
2019-01-14 10:59:05
阅读次数:
187
Python 可以做的应用 可以做自动化测试 可以做爬虫 可以做网站,如:知乎、YouTube、豆瓣、美团 大数据 人工智能,如:合成世界名画 Python 不实用的场合 比如写操作系统,这个只能用C语言写 写3D游戏,最好用C或C++ 写手机应用,只能用Objective-C(针对iPhone)和 ...
分类:
编程语言 时间:
2019-01-13 17:07:57
阅读次数:
159
将COMP20003中关于Graph的内容进行总结,内容来自COMP20003,中文术语并不准确,以英文为准。 Graph G = {V, E} 顶Vertices V: can contain information 边Edges E (links between vertices): can h ...
分类:
其他好文 时间:
2019-01-12 17:59:01
阅读次数:
289