码迷,mamicode.com
首页 > 其他好文 > 详细

scrapy 库--框架

时间:2017-10-16 22:16:57      阅读:399      评论:0      收藏:0      [点我收藏+]

标签:个数   gen   .com   tar   pipe   专业   ensp   bsp   logs   

   1.scrapy:    

 

scrapy 爬虫框架

爬虫框架 :  1 实现爬虫功能的一个软件结构和功能组件集合;
           2 半成品,能够帮助用户实现专业的网络爬虫;

技术分享

 

2.scrapy的 5+2 结构:

                      scrapy框架

5 个骨架结构: ENGINE + ITEM PIPELINE(出口) + SPIDERS(入口) + SCHEDULER + DOWNLOADER
                   技术分享

 

               技术分享

 

2 个中间配置:
Downloader Middleware ==== 可以配置 scheduler ---downloader 之间的 数据

技术分享

 

Spider Middleware      ==== Itempipe---spider

技术分享

3个数据流:
spdiers-->> (requests) engine--->> scheduler

scheduler--->>engine(requests)--->>downloader
spiders(respnse)<<----- engine(response) <<------ downloader

spiders--->>(items,requests)---->>> item pipe
----->> scheduler
                     技术分享

 




 3.scrapy vs requests:

         技术分享

 

               技术分享

 

                技术分享

 

4.scrapy的命令:

 

 scrapy 命令行:   scrapy xxx

技术分享
startproject ---genspider--- crawl ----
技术分享

 

技术分享

 

 

 5.创建scrapy工程:

 1 创建一个scrapy工程和spider模板 
cmd---python -m scrapy startproject python123demo
     技术分享
    技术分享

     技术分享

 2 产生一个爬虫 编写spider :        

python -m scrapy genspider demo python123.io

技术分享
技术分享

 3 配置产生的spider爬虫   

配置demo.py 爬虫文件

 4 运行爬虫,获取网页

技术分享

 

Scrapy的使用步骤:

技术分享

Scrapy 数据类型:

技术分享

技术分享

 

技术分享

技术分享

 

技术分享

 

 scrapy中的yield关键字:

技术分享

技术分享

 

scrapy爬虫提取数据的方法:

技术分享

技术分享

 

 

 

 

 

 

 

 

 

                               

           

 

scrapy 库--框架

标签:个数   gen   .com   tar   pipe   专业   ensp   bsp   logs   

原文地址:http://www.cnblogs.com/big-handsome-guy/p/7678242.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!