1. Scrapy使用了Twisted异步网络库来处理网络通讯,整体架构: Scrapy爬虫框架主要由5个部分组成,分别是:Scrapy Engine(Scrapy引擎),Scheduler(调度器),Downloader(下载器),Spiders(蜘蛛),Item Pipeline(项目管道)。爬 ...
分类:
其他好文 时间:
2020-06-26 10:21:18
阅读次数:
58
图中绿色的是数据的流向 我们看到图里有这么几个东西,分别是 Spiders:爬虫,定义了爬取的逻辑和网页内容的解析规则,主要负责解析响应并生成结果和新的请求 Engine:引擎,处理整个系统的数据流处理,出发事物,框架的核心。 Scheduler:调度器,接受引擎发过来的请求,并将其加入队列中,在引 ...
分类:
其他好文 时间:
2020-06-25 11:58:04
阅读次数:
46
背景 Kubernetes中的调度是将待处理的pod绑定到节点的过程,由Kubernetes的一个名为kube-scheduler的组件执行。调度程序的决定,无论是否可以或不能调度容器,都由其可配置策略指导,该策略包括一组规则,称为谓词和优先级。调度程序的决定受到其在第一次调度时出现新pod时的Ku ...
分类:
Web程序 时间:
2020-06-25 11:46:33
阅读次数:
81
去重的配置: DUPEFILTER_KEY = 'dupefilter:%(timestamp)s' DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter" 调度器配置: SCHEDULER = "scrapy_redis.schedul ...
分类:
其他好文 时间:
2020-06-21 19:57:44
阅读次数:
53
整个爬虫流程 1、scrapy crawl chouti --nolog 2、找到 SCHEDULER = "scrapy_redis.scheduler.Scheduler" 配置并实例化调试器对象 - 执行Scheduler.from_crawler - 执行Scheduler.from_set ...
分类:
其他好文 时间:
2020-06-21 19:40:00
阅读次数:
56
首先需要思考的问题是:什么是调度器(scheduler)?调度器的作用是什么?调度器是一个操作系统的核心部分。可以比作是CPU时间的管理员。调度器主要负责选择某些就绪的进程来执行。不同的调度器根据不同的方法挑选出最适合运行的进程。目前Linux支持的调度器就有RT scheduler、Deadlin ...
分类:
其他好文 时间:
2020-06-21 11:39:52
阅读次数:
82
1,主机分配 角色 IP 组件 k8s-master1 192.168.31.63 kube-apiserver kube-controller-manager kube-scheduler etcd k8s-master2 192.168.31.64 kube-apiserver kube-con ...
分类:
其他好文 时间:
2020-06-20 18:31:51
阅读次数:
66
一,为什么要为node指定label? 通常scheduler会把pod调度到所有可用的Node,有的情况下我们希望能把 Pod 部署到指定的 Node, 例如: 有的Node上配备了速度更快的SSD磁盘 有的Node上配备了性能更强的GPU, 这样pod中的应用才能更好的发挥node的硬件优势 说 ...
分类:
Web程序 时间:
2020-06-19 13:38:54
阅读次数:
96
WebMagic 一款爬虫框架 WebMagic项目代码分为核心和扩展两部分。 核心部分是一个精简的、模块化的爬虫实现 扩展部分则是包括一些便利的、实用性的功能 架构介绍 WebMagic的结构分为四部分:Downloader、PageProcessor、 Scheduler、Pipeline四大组 ...
分类:
Web程序 时间:
2020-06-16 01:12:12
阅读次数:
93
1.健康检查1.1健康检查概述应用在运行过程中难免会出现错误,如程序异常,软件异常,硬件故障,网络故障等,kubernetes提供HealthCheck健康检查机制,当发现应用异常时会自动重启容器,将应用从service服务中剔除,保障应用的高可用性。k8s定义了三种探针Probe:readinessprobes准备就绪检查,通过readiness是否准备接受流量,准备完毕加入到endpoint,
分类:
Web程序 时间:
2020-06-12 12:25:14
阅读次数:
74