scrapy 库--框架

时间：2017-10-16 22:16:57 阅读：399 评论：0 收藏：0 [点我收藏+]

标签：个数 gen .com tar pipe 专业 ensp bsp logs

1.scrapy:

scrapy 爬虫框架

爬虫框架 ：  1 实现爬虫功能的一个软件结构和功能组件集合;
           2 半成品，能够帮助用户实现专业的网络爬虫;

2.scrapy的 5+2 结构：

                      scrapy框架

5 个骨架结构： ENGINE + ITEM PIPELINE(出口) + SPIDERS(入口) + SCHEDULER + DOWNLOADER

技术分享

2 个中间配置：

Downloader Middleware  ==== 可以配置 scheduler ---downloader 之间的 数据

Spider Middleware      ==== Itempipe---spider


3个数据流：

spdiers-->> (requests) engine--->> scheduler

scheduler--->>engine(requests)--->>downloader
spiders(respnse)<<-----  engine(response) <<------  downloader

spiders--->>(items,requests)---->>> item pipe
                            ----->> scheduler

3.scrapy vs requests：

技术分享

4.scrapy的命令：

 scrapy 命令行：   scrapy xxx

    

 startproject ---genspider--- crawl ----

5.创建scrapy工程：

 1 创建一个scrapy工程和spider模板 ：

cmd---python -m scrapy startproject python123demo

技术分享

 2 产生一个爬虫 编写spider ：        

python -m scrapy genspider demo python123.io


 3 配置产生的spider爬虫   

   配置demo.py 爬虫文件


 4 运行爬虫，获取网页

Scrapy的使用步骤：

Scrapy 数据类型：

技术分享

scrapy中的yield关键字：

技术分享

scrapy爬虫提取数据的方法：

技术分享

scrapy 库--框架

标签：个数 gen .com tar pipe 专业 ensp bsp logs

原文地址：http://www.cnblogs.com/big-handsome-guy/p/7678242.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行