scrapy框架学习（一）

时间：2021-01-26 12:21:50 阅读：0 评论：0 收藏：0 [点我收藏+]

scrapy框架学习----------初识

一、概述

Scrapy，Python开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。

二、安装

安装：pip install scrapy

因为安装scrapy需要相应的库支持，如果安装不成功，可以分步安装。

1、安装wheel
pip install wheel
2、安装lxml
https://pypi.python.org/pypi/lxml/4.5.1
3、安装pyopenssl
https://pypi.python.org/pypi/pyOpenSSL/19.1.0
4、安装Twisted
https://www.lfd.uci.edu/~gohlke/pythonlibs/
5、安装pywin32
https://sourceforge.net/projects/pywin32/files/
6、安装scrapy
pip install scrapy

二、Scrapy五大基本构成

1.调度器(Scheduler):

调度器，说白了把它假设成为一个URL（抓取网页的网址或者说是链接）的优先队列，由它来决定下一个要抓取的网址是什么，同时去除重复的网址（不做无用功）。用户可以自己的需求定制调度器。

2.下载器(Downloader):

下载器，是所有组件中负担最大的，它用于高速地下载网络上的资源。

3. 爬虫（Spider）:

爬虫，是用户最关心的部份。用户定制自己的爬虫(通过定制正则表达式等语法)，用于从特定的网页中提取自己需要的信息。

4. 管道(ItemPipeline):

管道，用于处理爬虫(spider)提取的信息。主要的功能是持久化信息、验证信息的有效性、清除不需要的信息。

6.Scrapy引擎(Scrapy Engine):

Scrapy引擎是整个框架的核心.它用来控制调试器、下载器、爬虫。控制着整个流程。

官方架构图

技术图片

Scrapy运行流程大概如下：

　　1.引擎从调度器中取出一个链接(URL)用于接下来的抓取

　　2.引擎把URL封装成一个请求(Request)传给下载器

　　3.下载器把资源下载下来，并封装成应答包(Response)

　　4.爬虫解析Response

　　5.解析出数据（Item）,则交给实体管道进行进一步的处理

　　6.解析出的是链接（URL）,则把URL交给调度器等待抓取

找了张别人画的图

技术图片

scrapy框架学习（一）

标签：官方 info center 架构资源 ted 用户功能 ssl

原文地址：https://www.cnblogs.com/gostClimbers/p/14323130.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行