标签:网站 pip bin start www 客户端 win tar 模式
分布式爬虫概念:多台机器上执行同一个爬虫程序,实现网站数据的分布爬取。
scrapy-redis是专门为scrapy框架开发的一套组件。该组件可以解决上述两个问题,让Scrapy实现分布式。
组件安装:
$ pip3 intall scrapy-redis
# 不注释时,只允许本机的客户端连接
# bind 127.0.0.1
# yes改为no,关闭redis的保护模式,客户端可以对服务器进行读写操作
protected-mode no
# MAC/Linux
$ pwd
/Users/hqs/redis-5.0.2
$ src/redis-server redis.conf
# windows
$ redis-server.exe redis-windows.conf
$ scrapy startproject redisPro
$ cd redisPro/
$ scrapy genspider -t crawl qiubai www.qiushibaike.com/pic/
这里运用CrawlSpider创建爬虫文件爬取全站图片数据。
在爬虫文件中要导入RedisCrawlSpider类,然后将爬虫文件修改成基于该类的源文件。
from scrapy_redis.spiders import RedisCrawlSpider
标签:网站 pip bin start www 客户端 win tar 模式
原文地址:https://www.cnblogs.com/xiugeng/p/10086365.html