scrapy-redis详解

时间：2016-05-19 16:27:49 阅读：362 评论：0 收藏：0 [点我收藏+]

标签：

scrapy-redis使用的爬虫策略：

技术分享

Slaver端从Master端拿任务进行数据抓取，在抓取数据的同时也生成新任务，并将任务抛给Master。Master端负责对Slaver提交的任务进行去重、加入待爬队列。

scrapy-redis在处理分布式时，会在redis中创建两个key，一个是(spider.name):requests作为队列使用，另一个是(spider.name): dupefilter作用是去重

队列任务分配

Slaver端解析到新的URL任务，先判断在key: dupefilter中是否已经存在，如果没有则将其push记录到key:requests的任务队列中，保存的格式如：

{‘body‘: ‘‘, ‘_encoding‘: ‘utf-8‘, ‘cookies‘: {}, ‘meta‘: {}, ‘headers‘: {}, ‘url‘: u‘http://www.test.com/test‘, ‘dont_filter‘: False, ‘priority‘: 0, ‘callback‘: ‘parse_item‘, ‘method‘: ‘GET‘, ‘errback‘: None}

key:requests作为一个任务分配，将一个任务pop分配后即在队列中删除

去重

将分配过的任务保存其sha1值到key: dupefilter中，格式如：

1babbfde30b0030559373ebe3e2a7a0955527e5f

每次往队列中添加任务前先判断下key: dupefilter中是否已经存在，去重

断点重爬

当爬虫停止，key:requests队列中的任务依然存在，下次启动继续

scrapy-redis详解

标签：

原文地址：http://www.cnblogs.com/leaf-7/p/5509075.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行