Scrapy项目创建已经目录详情

时间：2018-03-12 11:04:20 阅读：1087 评论：0 收藏：0 [点我收藏+]

标签：ica enabled 范围 modules ike 内容图片 def 引用

Scrapy项目创建已经目录详情

一、新建项目(scrapy startproject)

在开始爬取之前，必须创建一个新的Scrapy项目。进入自定义的项目目录中，运行下列命令：

PS C:\scrapy> scrapy startproject sp1

You can start your first spider with:
    cd sp1
    scrapy genspider example example.com

技术分享图片

scrapy.cfg # 项目的配置文件
sp1/ # 项目的Python模块，将会从这里引用代码
sp1/items.py # 项目的目标文件
sp1/pipelines.py # 项目的管道文件用于文件持久化
sp1/settings.py # 项目的设置文件
sp1/middlewares.py # 中间件
sp1/spiders/ # 存储爬虫代码目录

settings.py内容详情

settings.py

# 项目名
BOT_NAME = 'sp1'

# 爬虫所在的位置
SPIDER_MODULES = ['sp1.spiders']
NEWSPIDER_MODULE = 'sp1.spiders'

# 爬虫是否遵循 robots 协议
ROBOTSTXT_OBEY = False

# 爬虫的并发量 默认 16 个
# CONCURRENT_REQUESTS = 32

# 下载延时 3 s
#DOWNLOAD_DELAY = 3

# 是否禁用cookies  默认不禁用
#COOKIES_ENABLED = False        # 表示为禁用

# 请求包头
DEFAULT_REQUEST_HEADERS = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36',
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
    # 语言可以关闭,按照服务器返回值为准
    # 'Accept-Language': 'en',
}

# 下载中间件,值越小优先级越高
DOWNLOADER_MIDDLEWARES = {
   'sp1.middlewares.Sp1DownloaderMiddleware': 543,
}

# 下载后的数据如何处理，存储过程
ITEM_PIPELINES = {
   'sp1.pipelines.FilePipeline': 300,
}

创建一个爬虫文件

在当前目录下输入命令，将在sp1/spider目录下创建一个名为itcast的爬虫，并指定爬取域的范围：

PS C:\scrapy> cd sp1
# scrapy genspider关键字    chouti 爬虫名         chouti.com 一般指定站点域名  
PS C:\scrapy\sp1> scrapy genspider chouti chouti.com
Created spider 'chouti' using template 'basic' in module:
  sp1.spiders.chouti

Scrapy项目创建已经目录详情

标签：ica enabled 范围 modules ike 内容图片 def 引用

原文地址：https://www.cnblogs.com/baolin2200/p/8547900.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行