码迷,mamicode.com
首页 > 编程语言 > 详细

python3下scrapy爬虫(第十四卷:scrapy+scrapy_redis+scrapyd打造分布式爬虫之执行)

时间:2018-02-21 16:36:23      阅读:214      评论:0      收藏:0      [点我收藏+]

标签:运用   多个   注意   修改   存储   任务   job   速度   文件   

现在我们现在一个分机上引入一个SCRAPY的爬虫项目,要求数据存储在MONGODB中

现在我们需要在SETTING.PY设置我们的爬虫文件

技术分享图片

再添加PIPELINE

技术分享图片

注释掉的原因是爬虫执行完后,和本地存储完毕还需要向主机进行存储会给主机造成压力

设置完这些后,在MASTER主机开启REDIS服务,将代码复制放在其它主机中,注意操作系统类型以及配置

然后分别在各个主机上进行爬取,爬取速度加大并且结果不同

技术分享图片

setting中加入这个可以保证爬虫不会被清空

技术分享图片

设置这个决定重新爬取时队列是否清空,一般都用FALSE

我们现在是否分别到主机上执行爬取,现在我想直接在一台主机上控制所有的爬虫程序,现在引入SCRAPYD,他会启动WEB服务来管理所有的项目

看下步骤

1启动SCRAPYD

2可以远程访问

3运用SCPRAPYD-CLIENT来打包项目

4修改爬虫的scrapy.cfg文件

技术分享图片

将地址改为远程的SCRAPYD服务地址

技术分享图片

执行此命令完成部署

技术分享图片

开启一个远程进程

技术分享图片

开几条指令,执行几条进程,每一个JOB都个ID如果是多个机器的任务那么ID则不同

 

python3下scrapy爬虫(第十四卷:scrapy+scrapy_redis+scrapyd打造分布式爬虫之执行)

标签:运用   多个   注意   修改   存储   任务   job   速度   文件   

原文地址:https://www.cnblogs.com/woshiruge/p/8456743.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!