码迷,mamicode.com
首页 > 其他好文 > 详细

将一个普通scrapy项目变成一个scrapy-redis分布式爬虫项目

时间:2021-01-05 11:15:34      阅读:0      评论:0      收藏:0      [点我收藏+]

标签:wls   pipe   暂停   信息   队列   shu   bsp   top   lis   

1. 将爬虫的类从scrapy.Spider变成scrapy_redis.spiders.RedisSpider;或者是从scrapy.CrawlSpider变成scrapy_redis.spider.RedisCrawlSpider。

技术图片
 
技术图片
 

2. 将爬虫中的start_urls删掉,增加一个redis_key=”xxx”,这个redis_key是为了以后再redis中控制爬虫启动的。爬虫的第一个url,就是在redis中通过这个类属性发送出去的。

3. 在配置文件中增加如下配置:

# 确保带爬取的request对象存储到redis数据库中 爬虫名:requests# 将单词全部进行大小写转换的快捷键:ctrl+shift+uSCHEDULER="scrapy_redis.scheduler.Scheduler"# 确保所有的爬虫共享相同的去重指纹 爬虫名:dupefilter,类型为set集合

DUPEFILTER_CLASS="scrapy_redis.dupefilter.RFPDupeFilter"# 爬虫名:requests 存放所有待爬取的request的集合,类型为zset集合

# Configure item pipelines# See https://docs.scrapy.org/en/latest/topics/item-pipeline.htmlITEM_PIPELINES = {   # ‘fang.pipelines.FangPipeline‘: 300,    # 将爬虫爬取的数据存储到redis数据库中,key为: 爬虫名:items,类型为list集合

   ‘scrapy_redis.pipelines.RedisPipeline‘: 543,}# 在redis中保存scrapy-redis用到的队列,不会清除redis中的队列,从而可以实现暂停和恢复功能SCHEDULER_PERSIST=True# 设置连接redis的信息REDIS_HOST="172.16.46.48"REDIS_PORT=6379

将一个普通scrapy项目变成一个scrapy-redis分布式爬虫项目

标签:wls   pipe   暂停   信息   队列   shu   bsp   top   lis   

原文地址:https://www.cnblogs.com/enjiu/p/14220745.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!