码迷,mamicode.com
首页 > 其他好文 > 详细

爬虫 - scrapy执行流程

时间:2018-07-04 17:32:39      阅读:277      评论:0      收藏:0      [点我收藏+]

标签:beta   crawl   完成后   循环   div   记录   执行   and   scrapy   

整体流程

- 引擎找到要执行的爬虫,并执行爬虫的 start_requests 方法,并的到一个 迭代器。
- 迭代器循环时会获取Request对象,而request对象中封装了要访问的URL和回调函数。
- 将所有的request对象(任务)放到调度器中,用于以后被下载器下载。

- 下载器去调度器中获取要下载任务(就是Request对象),下载完成后执行回调函数。

- 回到spider的回调函数中,
yield Request()
yield Item()

具体流程

 

 1 1. scrapy crawl chouti --nolog
 2      
 3 2. 找到 SCHEDULER = "scrapy_redis.scheduler.Scheduler" 配置并实例化调度器对象
 4     - 执行Scheduler.from_crawler
 5     - 执行Scheduler.from_settings
 6         - 读取配置文件:
 7             SCHEDULER_PERSIST            # 是否在关闭时候保留原来的调度器和去重记录,True=保留,False=清空
 8             SCHEDULER_FLUSH_ON_START     # 是否在开始之前清空 调度器和去重记录,True=清空,False=不清空
 9             SCHEDULER_IDLE_BEFORE_CLOSE  # 去调度器中获取数据时,如果为空,最多等待时间(最后没数据,未获取到)。
10         - 读取配置文件:  
11             SCHEDULER_QUEUE_KEY          # %(spider)s:requests
12             SCHEDULER_QUEUE_CLASS        # scrapy_redis.queue.FifoQueue
13             SCHEDULER_DUPEFILTER_KEY     # %(spider)s:dupefilter
14             DUPEFILTER_CLASS             # scrapy_redis.dupefilter.RFPDupeFilter
15             SCHEDULER_SERIALIZER         # "scrapy_redis.picklecompat"
16  
17         - 读取配置文件:
18             REDIS_HOST = 140.143.227.206                            # 主机名
19             REDIS_PORT = 8888                                   # 端口
20             REDIS_PARAMS  = {password:beta}                                  # Redis连接参数             默认:REDIS_PARAMS = {socket_timeout: 30,socket_connect_timeout: 30,retry_on_timeout: True,encoding: REDIS_ENCODING,})
21             REDIS_ENCODING = "utf-8"     
22     - 示例Scheduler对象
23      
24 3. 爬虫开始执行起始URL
25     - 调用 scheduler.enqueue_requests()
26         def enqueue_request(self, request):
27             # 请求是否需要过滤?
28             # 去重规则中是否已经有?(是否已经访问过,如果未访问添加到去重记录中。)
29             if not request.dont_filter and self.df.request_seen(request):
30                 self.df.log(request, self.spider)
31                 # 已经访问过就不要再访问了
32                 return False
33              
34             if self.stats:
35                 self.stats.inc_value(scheduler/enqueued/redis, spider=self.spider)
36             # print(未访问过,添加到调度器, request)
37             self.queue.push(request)
38             return True
39      
40 4. 下载器去调度器中获取任务,去下载
41      
42     - 调用 scheduler.next_requests()
43         def next_request(self):
44             block_pop_timeout = self.idle_before_close
45             request = self.queue.pop(block_pop_timeout)
46             if request and self.stats:
47                 self.stats.inc_value(scheduler/dequeued/redis, spider=self.spider)
48             return request
49     

 

爬虫 - scrapy执行流程

标签:beta   crawl   完成后   循环   div   记录   执行   and   scrapy   

原文地址:https://www.cnblogs.com/zhaohuhu/p/9264171.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!