码迷,mamicode.com
首页 > 其他好文 > 详细

Scrapy是什么(未完待续)

时间:2018-03-27 14:27:43      阅读:133      评论:0      收藏:0      [点我收藏+]

标签:bubuko   网页   nbsp   inf   框架   com   队列   http   爬虫   

1.Scrapy是蜘蛛爬虫框架,我们用蜘蛛来获取互联网上的各种信息,然后再对这些信息进行数据分析处理。

2.Scrapy的组成

引擎:处理整个系统的数据流处理,出发事务

调度器: 接受引擎发过来的请求,压入队列中,并在引擎再次请求的时候返回

下载器: 下载网页内容,并将网页内容返回给蜘蛛

蜘蛛: 蜘蛛是主要干活的,用来制定特定域名或网页的解析规则

项目管道: 清洗验证存储数据,页面被蜘蛛解析后,被发送到项目管道,并经过几个特定的次序处理数据。

下载器中间件: 位于引擎和下载器之间,处理引擎与下载器之间的请求及响应

蜘蛛中间件:位于引擎和蜘蛛之间,处理从引擎发送到调度的请求及响应

 

技术分享图片

3.组件详解

 

Scrapy是什么(未完待续)

标签:bubuko   网页   nbsp   inf   框架   com   队列   http   爬虫   

原文地址:https://www.cnblogs.com/baxianhua/p/8656670.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!