ken桑带你读源码之scrapy scrapy\core\scheduler.py

时间：2018-01-12 11:36:18 阅读：131 评论：0 收藏：0 [点我收藏+]

从英文来看是调度程序我们看看是怎么调度

　　首先爬虫队列有两个一个是保存在内存中没有历史记录重新开始 42行 self.mqs = self.pqclass(self._newmq)

另外一个是存在硬盘的队列用于断点续传大家看 43 行 self._dq() if self.dqdir else None 先是判断是否有 join(jobdir, ‘requests.queue‘) 这个文件 (保存已抓取request hash)

然后获取 join(self.dqdir, ‘active.json‘) 该文件是已经塞入队列但没有抓取的url

53行 def enqueue_request 塞入队列先保存硬盘队列然后不行再保存内存队列

66行 def next_request(self): 获取队列

原文地址：https://www.cnblogs.com/gzwwj/p/8273967.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行

ken桑带你读源码 之scrapy scrapy\core\scheduler.py