多线程爬虫 先回顾前面学过的一些知识 1.一个cpu一次只能执行一个任务,多个cpu同时可以执行多个任务2.一个cpu一次只能执行一个进程,其它进程处于非运行状态3.进程里包含的执行单元叫线程,一个进程可以包含多个线程4.一个进程的内存空间是共享的,每个进程里的线程都可以使用这个共享空间5.一个线程 ...
分类:
编程语言 时间:
2019-12-25 11:34:37
阅读次数:
83
爬虫(Spider),反爬虫(Anti-Spider),反反爬虫(Anti-Anti-Spider) 之间恢宏壮阔的斗争... 小莫想要某站上所有的电影,写了标准的爬虫(基于HttpClient库),不断地遍历某站的电影列表页面,根据 Html 分析电影名字存进自己的数据库。 这个站点的运维小黎发现 ...
分类:
编程语言 时间:
2019-12-25 11:34:21
阅读次数:
87
1 #2019-11-23 2 #requests的api使用非常简单 3 import requests 4 import time 5 6 if __name__=='__main__': 7 # get请求 8 url_get='http://www.httpbin.org/get' #测试网 ...
分类:
编程语言 时间:
2019-11-23 20:20:27
阅读次数:
45
第七章 移动端数据的爬取 基于某一款抓包工具 : fiddler ,青花瓷 ,miteproxy 基于某一款抓包工具 : fiddler ,青花瓷 ,miteproxy 7.1 fiddler 基本配置 7.1.1fiddler简介和安装 什么是Fiddler? Fiddler是位于客户端和服务器端 ...
分类:
移动开发 时间:
2019-09-10 16:16:17
阅读次数:
190
获取全站用户,理论来说从1个用户作为切入点就可以,我们需要爬取用户的关注列表,从关注列表不断的叠加下去。随便打开一个用户的个人中心绿色圆圈里面的都是我们想要采集到的信息。这个用户关注0人?那么你还需要继续找一个入口,这个用户一定要关注了别人。选择关注列表,是为了让数据有价值,因为关注者里面可能大量的小号或者不活跃的账号,价值不大。我选了这样一个入口页面,它关注了3个人,你也可以选择多一些的,这个没
分类:
编程语言 时间:
2019-07-28 09:45:05
阅读次数:
126
全站爬虫有时候做起来其实比较容易,因为规则相对容易建立起来,只需要做好反爬就可以了,今天咱们爬取知乎。继续使用scrapy当然对于这个小需求来说,使用scrapy确实用了牛刀,不过毕竟这个系列到这个阶段需要不断使用scrapy进行过度,so,我写了一会就写完了。你第一步找一个爬取种子,算作爬虫入口https://www.zhihu.com/people/zhang-jia-wei/followin
分类:
编程语言 时间:
2019-07-28 09:25:45
阅读次数:
111
今天继续爬取一个网站,http://www.27270.com/ent/meinvtupian/这个网站具备反爬,所以我们下载的代码有些地方处理的也不是很到位,大家重点学习思路,有啥建议可以在评论的地方跟我说说。为了以后的网络请求操作方向,我们这次简单的进行一些代码的封装操作。这里在你可以先去安装一个叫做retrying的模块pipinstallretrying这个模块的具体使用,自己去百度吧。嘿
分类:
编程语言 时间:
2019-07-25 09:35:59
阅读次数:
148
蜂鸟网图片--简介今天玩点新鲜的,使用一个新库aiohttp,利用它提高咱爬虫的爬取速度。安装模块常规套路pipinstallaiohttp运行之后等待,安装完毕,想要深造,那么官方文档必备:https://aiohttp.readthedocs.io/en/stable/接下来就可以开始写代码了。我们要爬取的页面,这一次选取的是http://bbs.fengniao.com/forum/foru
分类:
编程语言 时间:
2019-07-25 09:32:51
阅读次数:
102
1.蜂鸟网图片--简介国庆假日结束了,新的工作又开始了,今天我们继续爬取一个网站,这个网站为http://image.fengniao.com/,蜂鸟一个摄影大牛聚集的地方,本教程请用来学习,不要用于商业目的,不出意外,蜂鸟是有版权保护的网站。2.蜂鸟网图片--网站分析第一步,分析要爬取的网站有没有方法爬取,打开页面,找分页http://image.fengniao.com/index.php?a
分类:
编程语言 时间:
2019-07-25 09:31:21
阅读次数:
123
简介你好,当你打开这个文档的时候,我知道,你想要的是什么!Python爬虫,如何快速的学会Python爬虫,是你最期待的事情,可是这个事情应该没有想象中的那么容易,况且你的编程底子还不一定好,这套课程,没有你想要的Python基础,没有变量,循环,数组等基础知识,因为我不想在那些你可以直接快速学会的地方,去浪费你的时间。好了,这套课程是基于Python3.0以上写的,操作系统我使用的是CentOS
分类:
编程语言 时间:
2019-07-24 10:15:32
阅读次数:
119