码迷,mamicode.com
首页 > 其他好文 > 详细

redis-scrapy分布式系统搭建

时间:2018-02-26 17:44:22      阅读:238      评论:0      收藏:0      [点我收藏+]

标签:push   deb   pycha   div   www   redis   www.   console   hive   

下载

  • Reids:https://github.com/MicrosoftArchive/redis
  • scrapy-redis:https://github.com/rmax/scrapy-redis
  • redis-py:> pip install redis
  • python:3.5

 

将下面设置添加到setting.py

1 SCHEDULER = "scrapy_redis.scheduler.Scheduler"
2 DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
3 TEM_PIPELINES = {
4   scrapy_redis.pipelines.RedisPipeline: 300
5 }

 

启动

  1. 在spider.py上设置 name 和 redis_key
  2. 启动redis-server、redis-cli 和 pycharm,可以看到scapy在等待start_urls
    1 2018-02-26 14:07:56 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023
  3. 在redis-cli上输入 llpush [redis_key] [start_urls] 启动爬虫

 



salver机上的配置与master无异,主从连接参考http://www.cnblogs.com/kylinlin/p/5198233.html

redis-scrapy分布式系统搭建

标签:push   deb   pycha   div   www   redis   www.   console   hive   

原文地址:https://www.cnblogs.com/qianzeng/p/8473834.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!