码迷,mamicode.com
首页 > 其他好文 > 详细

轻量级爬虫框架

时间:2018-02-12 20:04:52      阅读:141      评论:0      收藏:0      [点我收藏+]

标签:sch   frame   down   div   des   log   raw   pip   engine   

轻量级爬虫框架

2018-02-12

 

1【转】设计和实现一款轻量级的爬虫框架 【代码

技术分享图片

 

  • 调度器(Scheduler):是队列,保存请求队列响应队
  • 下载器(Downloader):通过请求队列中的请求拉数据,把结果保存到响应队列
  • 爬虫(Spiders):对响应队列中响应通过css(根据不同网站配置)来获取需要的内容和url,需要的内容放到管道,url放到请求队列。
  • 管道(Pipeline): 负责处理爬虫从网页中抽取的实体,主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。
  • 引擎(ElvesEngine):流程控制

 

轻量级爬虫框架

标签:sch   frame   down   div   des   log   raw   pip   engine   

原文地址:https://www.cnblogs.com/Ming8006/p/8445196.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!