原文地址:https://blog.csdn.net/liuxingen/article/details/72568808 gevent的调度流程解析:https://www.cnblogs.com/xybaby/p/6370799.html ...
分类:
其他好文 时间:
2020-06-22 14:59:36
阅读次数:
45
爬虫固定套路 1.提取数据(1.找到需要爬取的url,通过http请求获取html页面) 2.解析数据(1.数据筛选,2.数据过滤,3.获取有效数据) 最难搞的就是这一步,因为你要去分析解析人家前端页面Html的格式,这里也就是爬虫功放战的主要战场 3.数据入库 一、提取数据 1.找到需要爬取页面的 ...
分类:
其他好文 时间:
2020-06-22 13:04:10
阅读次数:
56
1、LVS(Linux Virtual Server) 负载均衡客户端,LVS(ipvs) 已经被集成到Linux内核中,是一个负载均衡调度器。基于四层的负载均衡。 2、LVS的网络拓扑图 3、为什么要使用LVS +Nginx LVS基于四层,工作效率高。(LVS不会处理请求的报文,直接转发。Ngi ...
分类:
其他好文 时间:
2020-06-22 01:47:18
阅读次数:
71
一、基本概念理解 并发:一个程序同时执行多个独立的任务,并发的主要目的是提高性能(同时可以做多个事情) 以前的单核CPU,某一时刻只能执行一个任务, 有操作系统调度,每秒执行多次所谓的“任务切换”,实现并发的假象。而且上下文切换需要时间开销(比如操作系统要保存你切换时的各种状态,变量或状态的存储,执 ...
分类:
编程语言 时间:
2020-06-22 01:18:07
阅读次数:
76
摘要:Go 能很好的支持并发模型,这也是 Go 如此火热的原因,那今天我们来学习 Go 的调度机制。 数据结构 G 结构体 G 是 goroutine 的缩写,相当于操作系统中的进程控制块,在这里就是 goroutine 的控制结构,是对 goroutine 的抽象,下面是 G 的结构(只列出了部分 ...
分类:
其他好文 时间:
2020-06-22 01:07:54
阅读次数:
104
1.x MapReduce:计算+调度 HDFS:数据存储 Common:辅助工具 2.x MapReduce:计算 Yarn:资源调度 HDFS:数据存储 Common:辅助工具 ...
分类:
其他好文 时间:
2020-06-21 23:45:14
阅读次数:
83
主机1:ResourceManager 处理客户端请求 监控NodeManager 启动或监控ApplicationMaster(干的活儿,单个任务) 资源的分配与调度 主机2:NodeManager 管理单个节点上的资源 处理ResourceManager的命令 处理ApplicationMase ...
分类:
其他好文 时间:
2020-06-21 22:52:28
阅读次数:
43
去重的配置: DUPEFILTER_KEY = 'dupefilter:%(timestamp)s' DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter" 调度器配置: SCHEDULER = "scrapy_redis.schedul ...
分类:
其他好文 时间:
2020-06-21 19:57:44
阅读次数:
53
整个爬虫流程 1、scrapy crawl chouti --nolog 2、找到 SCHEDULER = "scrapy_redis.scheduler.Scheduler" 配置并实例化调试器对象 - 执行Scheduler.from_crawler - 执行Scheduler.from_set ...
分类:
其他好文 时间:
2020-06-21 19:40:00
阅读次数:
56
操作系统的五大基本功能: 进程/线程管理(CPU管理):进程/线程状态、控制、同步互斥、通信、调度... 存储管理:分配回收、地址转换、存储保护、地址扩充... 文件管理:文件目录、文件操作、磁盘空间、文件存取控制... 设备管理:设备驱动、分配回收、缓冲技术... 用户接口:系统命令、缓冲接口.. ...
分类:
其他好文 时间:
2020-06-21 19:24:51
阅读次数:
60