标签:利用 调度 内容 不可 范围 ima lsp mode 回调函数
scrapy下载图片
CrawlSpider
分布式
1.pip install scrapy_redis
2.创建工程
3.cd 工程目录
4.创建爬虫文件(a.创建基于Spider类的 b.创建基于CrawlSpider类的)
5.修改爬虫类:
6.settings配置文件的配置:
UA伪装
Robots
管道的指定:
ITEM_PIPELINES = {
‘scrapy_redis.pipelines.RedisPipeline‘: 400
}
指定调度器:
指定redis数据库
REDIS_HOST = ‘redis服务的ip‘
REDIS_PORT = 6379
redis的配置文件进行配置(redis.windows.conf):
7.启动redis的服务端和客户端:
8.启动程序:
9.向调度器的队列扔入一个起始url:
增量式
概念:用于监测网站数据更新的情况
应用:
核心机制:去重 redis的set实现
深度爬取
非深度爬取
图片懒加载
总结反爬机制:
标签:利用 调度 内容 不可 范围 ima lsp mode 回调函数
原文地址:https://www.cnblogs.com/straightup/p/13693447.html