[TOC] Event事件 用来控制线程的执行 出现 ,就会把这个线程设置为False,就不能执行这个任务; 只要有一个线程出现 ,就会告诉Event对象,把有 的用户全部改为True,剩余的任务就会立马去执行。由一些线程去控制另一些线程,中间通过Event。 进程池与线程池 1. 进程池与线程池是 ...
分类:
编程语言 时间:
2019-10-24 23:10:37
阅读次数:
99
[toc] 前言 最近在做的统计报表项目包含人员代码提交量。 要获取人员代码提交量首先要知道人员参与的项目。GitLab个人页面中有Contributed projects页面,如下图: 遗憾的是GitLab api里没有相应的API接口。 目前的做法只能通过页面爬取。做法是使用接口登录,然后访问该 ...
分类:
其他好文 时间:
2019-10-24 13:31:02
阅读次数:
265
在前段时间看了杰昆菲尼克斯的小丑电影,心里很好奇大部分观众看完这部电影之后对此有什么评价,然后看了看豆瓣短评之后,觉得通过python把短评中出现最多的单词提取出来,做成一张词云,看看这部电影给观众们留下的关键词是什么。
分类:
其他好文 时间:
2019-10-24 00:27:01
阅读次数:
116
一、items保存爬取的文件 items.py quote.py 产生文件命令 文件类型:qutoes.xml qutoes.jl qutoes.csv等 二、 待续 ...
分类:
其他好文 时间:
2019-10-24 00:03:28
阅读次数:
64
目录 1. 概念讲解 2. 多任务异步协程理解 3.基于aiohttp模块异步网络请求实现数据爬取及数据解析 一、需要了解的概念 特殊函数:如果async修饰了一个函数的定义,那么该函数就变成了一个特殊函数, 特殊之处:特殊函数被调用后函数内部实现语句不会被立即执行 该函数调用之后会返回一个协程对象 ...
分类:
编程语言 时间:
2019-10-22 13:07:45
阅读次数:
124
一、使用Flask模拟阻塞,利用线程池爬取数据 线程池代码: ...
分类:
编程语言 时间:
2019-10-22 11:20:24
阅读次数:
130
1.导入相应的包 2.原始ur 我们要爬取的是最新电影,在该界面中,我们发现,具体的信息存储在每个名字的链接中,因此我们要获取所有电影的链接才能得到电影的信息。同时我们观察url,发现 list_23_1,最后的1是页面位于第几页。右键点击其中一个电影的名字-检查。 我们发现,其部分连接位于具有cl ...
分类:
其他好文 时间:
2019-10-21 20:40:37
阅读次数:
185
引言 本篇介绍Crawlspider,相比于Spider,Crawlspider更适用于批量爬取网页 Crawlspider Crawlspider适用于对网站爬取批量网页,相对比Spider类,CrawSpider主要使用规则(rules)来提取链接,通过定义一组规则为跟踪链接提供了遍历的机制。 ...
分类:
其他好文 时间:
2019-10-20 21:41:00
阅读次数:
105
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。 scrapy 框架 高性能的网络请求 高性能的数据解析 高性能的持久化存储 深度爬取 全站爬取 分布式 中间件 请求传参 环境的安装 mac/linux:pip i ...
分类:
其他好文 时间:
2019-10-20 21:39:27
阅读次数:
112