标签:作用 can fir 创建项目 res 写入文件 ges project url
在使用Scrapy开发爬虫时,通常需要创建一个Scrapy项目。通过如下命令即可创建 Scrapy 项目:
scrapy startproject ZhipinSpider
在上面命令中,scrapy 是Scrapy 框架提供的命令;startproject 是 scrapy 的子命令,专门用于创建项目;ZhipinSpider 就是要创建的项目名。
scrapy 除提供 startproject 子命令之外,它还提供了 fetch(从指定 URL 获取响应)、genspider(生成蜘蛛)、shell(启动交互式控制台)、version(查看 Scrapy 版本)等常用的子命令。可以直接输入 scrapy 来查看该命令所支持的全部子命令。
运行上面命令,将会看到如下输出结果:
New Scrapy project ‘ZhipinSpider‘, using template directory ‘d:\python3.6\lib\site-packages\scrapy\templates\project‘, created in: C:\Users\mengma\ZhipinSpider You can start your first spider with: cd ZhipinSpider scrapy genspider example example.com
上面信息显示 Scrapy 在当前目录下创建了一个 ZhipinSpider 项目,此时在当前目录下就可以看到一个 ZhipinSpider 目录,该目录就代表 ZhipinSpider 项目。
查看 ZhipinSpider 项目,可以看到如下文件结构:
ZhipinSpider
│ scrapy.cfg
│
└──ZhipinSpider
│ item.py
│ middlewares.py
│ pipelines.py
│ setting.py
│
├─ spiders
│ │ __init__.py
│ │
│ └─ __pycache__
└─ __pycache__
下面大致介绍这些目录和文件的作用:
为了更好地理解 Scrapy 项目中各组件的作用,下面给出 Scrapy 概览图,如图 1 所示。
在图 1 中可以看到,Scrapy 包含如下核心组件:
经过上面分析可知,使用 Scrapy 开发网络爬虫主要就是开发两个组件,蜘蛛和 Pipeline。
标签:作用 can fir 创建项目 res 写入文件 ges project url
原文地址:https://www.cnblogs.com/jackzz/p/10726924.html