码迷,mamicode.com
首页 > 编程语言 > 详细

python3下scrapy爬虫(第十三卷:scrapy+scrapy_redis+scrapyd打造分布式爬虫之配置)

时间:2018-02-21 15:48:14      阅读:218      评论:0      收藏:0      [点我收藏+]

标签:pos   div   抓取   主机   问题   存储   rap   lte   共享   

之前我们的爬虫都是单机爬取,也是单机维护REQUEST队列,

看一下单机的流程图:

技术分享图片

 

一台主机控制一个队列,现在我要把它放在多机执行,会产生一个事情就是做重复的爬取,毫无意义,所以分布式爬虫的第一个难点出来了,共享请求队列,看一下架构:

技术分享图片

 

三台主机由一个队列控制,意味着还需要一个主机来控制队列,我们一般来用REDIS来控制队列,形成如下分布式架构

 

技术分享图片

从机抓取,存储主机负责控制队列

SCRAPY_REDIS这个插件解决了SCRAPY不能做分布式爬取的问题

它内部的CONNECTION.PY作为连接MASTER的REDIS

DUPEFILTER.PY用作去重,添加指纹,以及判断功能,现在整个框架了解了,现在该做执行了

 

python3下scrapy爬虫(第十三卷:scrapy+scrapy_redis+scrapyd打造分布式爬虫之配置)

标签:pos   div   抓取   主机   问题   存储   rap   lte   共享   

原文地址:https://www.cnblogs.com/woshiruge/p/8456683.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!