码迷,mamicode.com
首页 > 其他好文 > 详细

Scrapy项目的默认结构

时间:2019-07-22 09:23:09      阅读:81      评论:0      收藏:0      [点我收藏+]

标签:lines   conf   home   setting   容器   pid   控制   优先   简单语法   

默认的情况下,Scrapy项目的默认结构如下:

scrapy.cfg
myproject/
    __init__.py
    items.py
    middlewares.py
    pipelines.py
    settings.py
    spiders/
        __init__.py
        spider1.py
        spider2.py
        ...

1.scrapy.cfg

Scrapy的项目配置文件。配置参数是以ini文件的风格来定义,即key=value的格式 。这里的scrapy.cfg是位于项目根目录。Scrapy也会查找系统和用户的scrapy.cfg。

系统级的配置文件位于/etc/scrapy.cfgc:\scrapy\scrapy.cfg

用户级的配置文件位于~/.config/scrapy.cfg ($XDG_CONFIG_HOME)~/.scrapy.cfg ($HOME)

项目根目录的scrapy.cfg的参数配置具有最高优先权,其次是用户级的配置,系统级的配置优先级最低。

Scarpy也会通过一些环境变量来配置,目前包括有:SCRAPY_SETTINGS_MODULESCRAPY_PROJECTSCRAPY_PYTHON_SHELL

2.myproject

项目文件夹,以项目名来命名。

3.items.py

包含数据容器模型的代码。提供了类似于字典的API、声明可用字段的简单语法。这种简单的容器用于保存爬得的数据。

4.middlewares.py

包含下载器中间件和爬虫中间件模型的代码。

下载器中间件是位于Engine和Downloader之间的钩子,负责处理从Engine到Downloader的Request,以及从Downloader到Engine的Response。

爬虫中间件是位于Engine和Spider之间的钩子,可以处理爬虫的输入(Response)和输出(Item,Request)。

5.pipelines.py

管道组件的代码。每个管道组件是一个实现了简单方法的类,接收item并执行一些行为,也决定此item是否继续通过后续的管理组件或者被丢弃也不再处理。

6.settings.py

提供定制组件的方法,可以控制包括核心(core),插件(extension),管道及spider组件。

7.spiders

此文件夹用于存放各个爬虫程序。

8.spider1.py

爬虫程序的代码。

Scrapy项目的默认结构

标签:lines   conf   home   setting   容器   pid   控制   优先   简单语法   

原文地址:https://www.cnblogs.com/Ooman/p/11223759.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!