1.Python 爬虫介绍 一、什么是爬虫 爬虫:一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息。 二、Python爬虫架构 Python 爬虫架构主要由五个部分组成,分别是调度器、URL管理器、网页下载器、网页解析器、应用程序(爬取的有价值数据)。 调度器:相当于一台电脑的CPU ...
分类:
编程语言 时间:
2018-11-11 18:00:02
阅读次数:
159
1. 负荷权重 1.1 负荷权重结构struct load_weight 负荷权重用struct load_weight数据结构来表示, 保存着进程权重值weight。其定义在 "/include/linux/sched.h, v=4.6, L1195" , 如下所示 1.2 调度实体的负荷权重lo ...
分类:
系统相关 时间:
2018-11-10 23:55:44
阅读次数:
249
1. 唤醒抢占 当在try_to_wake_up/wake_up_process和wake_up_new_task中唤醒进程时, 内核使用全局check_preempt_curr看看是否进程可以抢占当前进程可以抢占当前运行的进程. 请注意该过程不涉及核心调度器. 每个调度器类都因应该实现一个chec ...
分类:
系统相关 时间:
2018-11-09 10:46:50
阅读次数:
177
近来工作闲暇之余,知道自己的知识欠缺,就在网上找来一些学习视频进行学习,在学习的时候,按照讲课老师的讲解步骤进行配置lvs负载均衡,配置环境如下图: 客户端是我本机的虚拟网卡vmnet8 lvs调度器和两台real服务器是vmware装的centos7 lvs调度器配置的参数配置如下: echo 1 ...
分类:
其他好文 时间:
2018-11-08 10:53:15
阅读次数:
155
配置nginx的日志滚动 使用linux的crod调度器,周期性生成新文件。 [编写滚动脚本 /usr/local/bin/umeng_roll_log.sh] chmod 777 修改可执行权限 #!/bin/bash dateStr=`date '+%Y-%m-%d-%H-%M'` mv /us ...
分类:
其他好文 时间:
2018-11-04 21:14:34
阅读次数:
159
前言: Task.c和Task.h文件内是FreeRTOS的核心内容,所有任务和调度器相关的API函数都在这个文件中,它包括下图这些内容FreeRTOS文件如下: Task.c和Task.h文件内是FreeRTOS的核心内容,所有任务和调度器相关的API函数都在这个文件中,它包括下图这些内容 在开始 ...
分类:
其他好文 时间:
2018-11-03 17:27:48
阅读次数:
203
如何实现分布式爬虫 scrapy的url队列存在哪里? (单机内存) redis是支持分布式的内存数据库 可以为scrapy做一个新的调度器(redis),替换scapy的默认调度器, 从而实现分布式功能。 scrapy的url队列存在哪里? (单机内存) redis是支持分布式的内存数据库 可以为 ...
分类:
其他好文 时间:
2018-11-03 11:15:49
阅读次数:
119
一,介绍 1.scrapy框架为何不能实现分布式? 其一:因为多台机器上部署的scrapy会各自拥有各自的调度器,这样就使得多台机器无法分配start_urls列表中的url。(多台机器无法共享同一个调度器) 其二:多台机器爬取到的数据无法通过同一个管道对数据进行统一的数据持久出存储。(多台机器无法 ...
分类:
其他好文 时间:
2018-11-02 23:44:09
阅读次数:
142
scrapy engine(引擎):负责spider,ItemPipeline,Downloader,Scheduler中间的通讯,信号,数据传递等 Scheduler(调度器):它负责接受引擎发送过来的request请求,并按照一定的方式进行整理排列,入队,当引擎需要是交还给引擎 Download ...
分类:
其他好文 时间:
2018-11-02 14:35:23
阅读次数:
314
scrapy_redis是一个基于redis的scrapy组件,通过它可以快速实现简单的分布式爬虫程序,该组件主要提供三大功能: (1)dupefilter——URL去重规则(被调度器使用) (2)scheduler——调度器 (3)pipeline——数据持久化 一、安装redis 去官网下载re ...
分类:
其他好文 时间:
2018-10-29 11:54:12
阅读次数:
487