码迷,mamicode.com
首页 >  
搜索关键字:爬取    ( 4795个结果
Event事件、进程池与线程池、协程
[TOC] Event事件 用来控制线程的执行 出现 ,就会把这个线程设置为False,就不能执行这个任务; 只要有一个线程出现 ,就会告诉Event对象,把有 的用户全部改为True,剩余的任务就会立马去执行。由一些线程去控制另一些线程,中间通过Event。 进程池与线程池 1. 进程池与线程池是 ...
分类:编程语言   时间:2019-10-24 23:10:37    阅读次数:99
GitLab获取人员参与项目-贡献项目列表
[toc] 前言 最近在做的统计报表项目包含人员代码提交量。 要获取人员代码提交量首先要知道人员参与的项目。GitLab个人页面中有Contributed projects页面,如下图: 遗憾的是GitLab api里没有相应的API接口。 目前的做法只能通过页面爬取。做法是使用接口登录,然后访问该 ...
分类:其他好文   时间:2019-10-24 13:31:02    阅读次数:265
简单爬取《小丑》电影豆瓣短评生成词云
在前段时间看了杰昆菲尼克斯的小丑电影,心里很好奇大部分观众看完这部电影之后对此有什么评价,然后看了看豆瓣短评之后,觉得通过python把短评中出现最多的单词提取出来,做成一张词云,看看这部电影给观众们留下的关键词是什么。
分类:其他好文   时间:2019-10-24 00:27:01    阅读次数:116
Scrapy持久化
一、items保存爬取的文件 items.py quote.py 产生文件命令 文件类型:qutoes.xml qutoes.jl qutoes.csv等 二、 待续 ...
分类:其他好文   时间:2019-10-24 00:03:28    阅读次数:64
jsoup获取文章内容
jsoup爬取文章内容 ...
分类:Web程序   时间:2019-10-22 20:10:55    阅读次数:136
单线程多任务异步协程
目录 1. 概念讲解 2. 多任务异步协程理解 3.基于aiohttp模块异步网络请求实现数据爬取及数据解析 一、需要了解的概念 特殊函数:如果async修饰了一个函数的定义,那么该函数就变成了一个特殊函数, 特殊之处:特殊函数被调用后函数内部实现语句不会被立即执行 该函数调用之后会返回一个协程对象 ...
分类:编程语言   时间:2019-10-22 13:07:45    阅读次数:124
提升爬虫效率之线程池
一、使用Flask模拟阻塞,利用线程池爬取数据 线程池代码: ...
分类:编程语言   时间:2019-10-22 11:20:24    阅读次数:130
requests+lxml+xpath爬取电影天堂
1.导入相应的包 2.原始ur 我们要爬取的是最新电影,在该界面中,我们发现,具体的信息存储在每个名字的链接中,因此我们要获取所有电影的链接才能得到电影的信息。同时我们观察url,发现 list_23_1,最后的1是页面位于第几页。右键点击其中一个电影的名字-检查。 我们发现,其部分连接位于具有cl ...
分类:其他好文   时间:2019-10-21 20:40:37    阅读次数:185
Scrapy框架——使用CrawlSpider爬取数据
引言 本篇介绍Crawlspider,相比于Spider,Crawlspider更适用于批量爬取网页 Crawlspider Crawlspider适用于对网站爬取批量网页,相对比Spider类,CrawSpider主要使用规则(rules)来提取链接,通过定义一组规则为跟踪链接提供了遍历的机制。 ...
分类:其他好文   时间:2019-10-20 21:41:00    阅读次数:105
基于scrapy框架的爬虫
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。 scrapy 框架 高性能的网络请求 高性能的数据解析 高性能的持久化存储 深度爬取 全站爬取 分布式 中间件 请求传参 环境的安装 mac/linux:pip i ...
分类:其他好文   时间:2019-10-20 21:39:27    阅读次数:112
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!