Scrapy框架之分布式操作

时间：2018-12-08 11:17:11 阅读：143 评论：0 收藏：0 [点我收藏+]

一、分布式爬虫介绍

　　分布式爬虫概念：多台机器上执行同一个爬虫程序，实现网站数据的分布爬取。

　　scrapy-redis是专门为scrapy框架开发的一套组件。该组件可以解决上述两个问题，让Scrapy实现分布式。
　　组件安装：

$ pip3 intall scrapy-redis

# 不注释时，只允许本机的客户端连接
# bind 127.0.0.1

# yes改为no，关闭redis的保护模式，客户端可以对服务器进行读写操作
protected-mode  no

# MAC/Linux
$ pwd
/Users/hqs/redis-5.0.2
$ src/redis-server redis.conf 

# windows
$ redis-server.exe redis-windows.conf

$ scrapy startproject redisPro
$ cd redisPro/
$ scrapy genspider -t crawl qiubai www.qiushibaike.com/pic/

　　这里运用CrawlSpider创建爬虫文件爬取全站图片数据。

　　在爬虫文件中要导入RedisCrawlSpider类，然后将爬虫文件修改成基于该类的源文件。

from scrapy_redis.spiders import RedisCrawlSpider

原文地址：https://www.cnblogs.com/xiugeng/p/10086365.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行