码迷,mamicode.com
首页 > 其他好文 > 详细

setting 常用配置

时间:2018-12-17 21:10:53      阅读:188      评论:0      收藏:0      [点我收藏+]

标签:eve   div   bsp   redirect   dom   set   dirname   保存   文件名   

一,保存logging 信息

# 保存log信息的文件名
LOG_LEVEL = "INFO"
LOG_STDOUT = True
LOG_ENCODING = utf-8
# 路径  os.path.dirname(os.path.dirname(os.path.dirname(__file__)))
LOG_FILE = os.path.dirname(__file__) + "/SHANGSHIYAOPINGMULU_error.log"

二,禁止重定向

REDIRECT_ENABLED = False

三,设置延时

import random
DOWNLOAD_DELAY = random.random() + random.random()
RANDOMIZE_DOWNLOAD_DELAY = True

四,设置USER_AGENT

USER_AGENT = Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko

五,启动spider下面的全部爬虫

1.与spider同级目录中创建commands文件夹

mkdir commands

2.进入commands文件夹

cd commands

3.创建__init__.py文件

 

配置commands

COMMANDS_MODULE = spider.commands

六,设置重新发请求的状态码

RETRY_HTTP_CODES = [500, 520]

七,配置redis

# reids连接信息
REDIS_HOST = "192.168.1.235"
REDIS_PORT = 6379
REDIS_PARAMS = {
    "password": "KangCe@0608",
}

# 1(必须). 使用了scrapy_redis的去重组件,在redis数据库里做去重
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

# 2(必须). 使用了scrapy_redis的调度器,在redis里分配请求
SCHEDULER = "scrapy_redis.scheduler.Scheduler"

# 3(必须). 在redis中保持scrapy-redis用到的各个队列,从而允许暂停和暂停后恢复,也就是不清理redis queues
SCHEDULER_PERSIST = True

# 4(必须). 通过配置RedisPipeline将item写入key为 spider.name : items 的redis的list中,供后面的分布式处理item
# 这个已经由 scrapy-redis 实现,不需要我们写代码,直接使用即可
ITEM_PIPELINES = {
    # ‘AQI.pipelines.AqiJsonPipeline‘: 200,
    # ‘AQI.pipelines.AqiCSVPipeline‘: 300,
    # ‘AQI.pipelines.AqiRedisPipeline‘: 400,
    # ‘AQI.pipelines.AqiMongoPipeline‘: 500,
    scrapy_redis.pipelines.RedisPipeline: 100
}

 

setting 常用配置

标签:eve   div   bsp   redirect   dom   set   dirname   保存   文件名   

原文地址:https://www.cnblogs.com/yoyo1216/p/10133703.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!