码迷,mamicode.com
首页 > 其他好文 > 详细

scrapy框架学习(一)

时间:2021-01-26 12:21:50      阅读:0      评论:0      收藏:0      [点我收藏+]

标签:官方   info   center   架构   资源   ted   用户   功能   ssl   

scrapy框架学习----------初识

一、概述

Scrapy,Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。

二、安装

安装:pip install scrapy

因为安装scrapy需要相应的库支持,如果安装不成功,可以分步安装。

1、安装wheel
pip install wheel
2、安装lxml
https://pypi.python.org/pypi/lxml/4.5.1
3、安装pyopenssl
https://pypi.python.org/pypi/pyOpenSSL/19.1.0
4、安装Twisted
https://www.lfd.uci.edu/~gohlke/pythonlibs/
5、安装pywin32
https://sourceforge.net/projects/pywin32/files/
6、安装scrapy
pip install scrapy

二、Scrapy五大基本构成

1.调度器(Scheduler):

调度器,说白了把它假设成为一个URL(抓取网页的网址或者说是链接)的优先队列,由它来决定下一个要抓取的网址是 什么,同时去除重复的网址(不做无用功)。用户可以自己的需求定制调度器。

2.下载器(Downloader):

下载器,是所有组件中负担最大的,它用于高速地下载网络上的资源。

3. 爬虫(Spider):

爬虫,是用户最关心的部份。用户定制自己的爬虫(通过定制正则表达式等语法),用于从特定的网页中提取自己需要的信息。 

4. 管道(ItemPipeline):

管道,用于处理爬虫(spider)提取的信息。主要的功能是持久化信息、验证信息的有效性、清除不需要的信息。

6.Scrapy引擎(Scrapy Engine):

Scrapy引擎是整个框架的核心.它用来控制调试器、下载器、爬虫。控制着整个流程。

官方架构图

技术图片

 

Scrapy运行流程大概如下:

  1.引擎从调度器中取出一个链接(URL)用于接下来的抓取

  2.引擎把URL封装成一个请求(Request)传给下载器

  3.下载器把资源下载下来,并封装成应答包(Response)

  4.爬虫解析Response

  5.解析出数据(Item),则交给实体管道进行进一步的处理

  6.解析出的是链接(URL),则把URL交给调度器等待抓取

找了张别人画的图

技术图片

 

scrapy框架学习(一)

标签:官方   info   center   架构   资源   ted   用户   功能   ssl   

原文地址:https://www.cnblogs.com/gostClimbers/p/14323130.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!