标签:eve div bsp redirect dom set dirname 保存 文件名
一,保存logging 信息
# 保存log信息的文件名 LOG_LEVEL = "INFO" LOG_STDOUT = True LOG_ENCODING = ‘utf-8‘ # 路径 os.path.dirname(os.path.dirname(os.path.dirname(__file__))) LOG_FILE = os.path.dirname(__file__) + "/SHANGSHIYAOPINGMULU_error.log"
二,禁止重定向
REDIRECT_ENABLED = False
三,设置延时
import random DOWNLOAD_DELAY = random.random() + random.random() RANDOMIZE_DOWNLOAD_DELAY = True
四,设置USER_AGENT
USER_AGENT = ‘Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko‘
五,启动spider下面的全部爬虫
1.与spider同级目录中创建commands文件夹
mkdir commands
2.进入commands文件夹
cd commands
3.创建__init__.py文件
配置commands
COMMANDS_MODULE = ‘spider.commands‘
六,设置重新发请求的状态码
RETRY_HTTP_CODES = [500, 520]
七,配置redis
# reids连接信息 REDIS_HOST = "192.168.1.235" REDIS_PORT = 6379 REDIS_PARAMS = { "password": "KangCe@0608", } # 1(必须). 使用了scrapy_redis的去重组件,在redis数据库里做去重 DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter" # 2(必须). 使用了scrapy_redis的调度器,在redis里分配请求 SCHEDULER = "scrapy_redis.scheduler.Scheduler" # 3(必须). 在redis中保持scrapy-redis用到的各个队列,从而允许暂停和暂停后恢复,也就是不清理redis queues SCHEDULER_PERSIST = True # 4(必须). 通过配置RedisPipeline将item写入key为 spider.name : items 的redis的list中,供后面的分布式处理item # 这个已经由 scrapy-redis 实现,不需要我们写代码,直接使用即可 ITEM_PIPELINES = { # ‘AQI.pipelines.AqiJsonPipeline‘: 200, # ‘AQI.pipelines.AqiCSVPipeline‘: 300, # ‘AQI.pipelines.AqiRedisPipeline‘: 400, # ‘AQI.pipelines.AqiMongoPipeline‘: 500, ‘scrapy_redis.pipelines.RedisPipeline‘: 100 }
标签:eve div bsp redirect dom set dirname 保存 文件名
原文地址:https://www.cnblogs.com/yoyo1216/p/10133703.html