标签:scheduler img ali 模块 调度 等等 爬虫 引擎 ade
部分流程:
第一:爬虫引擎生成requests请求,送往scheduler调度模块,进入等待队列,等待调度。
第二:scheduler模块开始调度这些requests,出队,发往爬虫引擎。
第三:爬虫引擎将这些requests送到下载中间件(多个,例如加header,代理,自定义等等)进行处理。
第四:处理完之后,送往Downloader模块进行下载。
从这个处理过程来看,突破口就在下载中间件部分,用selenium直接处理掉request请
标签:scheduler img ali 模块 调度 等等 爬虫 引擎 ade
原文地址:https://www.cnblogs.com/guozepingboke/p/10774119.html