4、为何需要进行url去重? 运行爬虫时,我们不需要一个网站被下载多次,这会导致cpu浪费和增加引擎负担,所以我们需要在爬取的时候对url去重,另一方面:当我们大规模爬取数据时,当故障发生时,不需要进行url链接重跑(重跑会浪费资源、造成时间浪费) 5、如何确定去重强度? 这里使用去重周期确定强度: ...
分类:
数据库 时间:
2018-06-08 20:36:44
阅读次数:
266
简单方式实现,多台Linux主机之间ssh无密码登录。 1.在任意一台主机上执行如下命令。如:192.168.10.102 2.继续在该主机(192.168.10.102)上执行如下命令: 3.:将该主机上的.ssh文件夹拷贝到其他主机上,即可实现各主机相互之间的ssh无密码登录 ...
分类:
系统相关 时间:
2018-06-06 01:17:40
阅读次数:
220
用户和组的管理命令:组账户的管理命令:groupadd、groupdel、groupmod用户账户的管理命令:useradd、userdel、usermod认证相关的命令:passwd、gpasswd其他的相关命令:chage,chsh,finger,su,id与用户和组相关的命令:1.groupaddgroupadd-创建一个新组格式:groupadd[Options...]group常用选项:
分类:
其他好文 时间:
2018-06-03 12:30:06
阅读次数:
180
1、常用的自动化运维工具对比 1、Puppet 基于ruby语言开发,CS架构,扩展性强,比如集群,客户端和服务器通信用ssl协议 2、Slatstack 基于python开发,也是采用cs架构,比puppet更轻量级,脚本配置更为简单 3、Ansible 基于python开发,支持分布式,无需客户 ...
分类:
其他好文 时间:
2018-05-24 13:56:04
阅读次数:
277
网络和监控命令类似于这些: hostname, ping, ifconfig, iwconfig, netstat, nslookup, traceroute, finger, telnet, ethtool 用于查看 linux 服务器 ip 地址,管理服务器网络配置,通过 telnet 和 et ...
分类:
系统相关 时间:
2018-05-22 23:59:59
阅读次数:
375
1、查看 keystore $ keytool -list -keystore debug.keystore 结果: Keystore type: JKS Keystore provider: SUN Your keystore contains 1 entry androiddebugkey, M ...
分类:
其他好文 时间:
2018-05-07 13:47:59
阅读次数:
216
Scrapy是一个比较好用的Python爬虫框架,你只需要编写几个组件就可以实现网页数据的爬取。但是当我们要爬取的页面非常多的时候,单个主机的处理能力就不能满足我们的需求了(无论是处理速度还是网络请求的并发数),这时候分布式爬虫的优势就显现出来。 而Scrapy-Redis则是一个基于Redis的S ...
分类:
其他好文 时间:
2018-05-03 16:41:06
阅读次数:
214
Only through the blood of finger , Can play out in the world alongside. OO的课程转眼就过了一半,最近的这三次作业里我们练习了多线程的设计与编码,无论是难度还是所花的时间都大大上升了。虽然经历了痛苦,但也有很大收获。 作业分析 ...
分类:
其他好文 时间:
2018-05-02 13:24:22
阅读次数:
154
finger命令用来查询一台主机上的登录账号的信息,通常会显示用户名、主目录、停滞时间、登录时间、登录Shell等信息,使用权限为所有用户。 安装 使用 ...
分类:
其他好文 时间:
2018-04-27 13:53:33
阅读次数:
211
本节学习的命令: 用户管理命令:useradd,userdel,id,finger,usermod,chsh,chfn,passwd,pwck, 组管理命令:groupadd,groupmod,groupdel,gpasswd,newgrp,chage 本节学习的技能: 用户管理命令 密码管理命令 ...
分类:
系统相关 时间:
2018-04-24 21:46:50
阅读次数:
222