标签:分布式 爬虫 scrapy scrapy-redis
i)首先运行爬虫A(B同理),爬虫引擎请求spider A中start_urls中的链接并交割调度器,进而引擎向调度器请求爬取的url并交给下载器下载,下载后的response交给spider,spider根据定义的rules得到链接,继续通过引擎交给调度器。(这一系列过程可查看scrapy架构)。其中调度器scheduler中request(url)顺序是redis queue实现的,也就是将request(url)push到queue中,请求时pop出来。
每次执行重新爬取,应该将redis中存储的数据清空,否则影响爬取现象。
scrapy中request=url。
spider不同于crawler。crawler包含spider。scrapy的架构就是crawler,spider作用为:提供start_url,根据下载到的response分析获取想要的内容,继续提取url等。
scrapy-redis实现爬虫分布式爬取分析与实现,布布扣,bubuko.com
标签:分布式 爬虫 scrapy scrapy-redis
原文地址:http://blog.csdn.net/u012150179/article/details/38091411