今天学习如何使用selenium库来爬取百度文库里面的收费的word文档 结果运行报错: 因为在百度文库页面底部需要点击“继续阅读”才可以加载到完整的页面,所以必须使用这两行代码 来将浏览器滚动到“继续阅读”这个位置,然后执行点击按钮。 但是却爆出了黄色部分的错误。找了好久,最后在stackover ...
分类:
编程语言 时间:
2019-09-30 23:53:41
阅读次数:
228
以梨视频为例分析页面请求抓取网页数据。本次抓取梨视频生活分类页面下的部分视频数据,并保存到本地。 一、分析网页 打开抓取网页,查看网页代码结构,发现网页结构里面存放视频的地址并不是真正的视频地址。 进入视频详情页面查看后,可以在response中找到真正的视频地址。保存这个地址的并不是标签,而是一个 ...
分类:
系统相关 时间:
2019-09-30 22:05:45
阅读次数:
119
增加并发: 默认scrapy开启的并发线程为32个,可以适当进行增加。在settings配置文件中修改CONCURRENT_REQUESTS = 100值为100,并发设置成了为100。 降低日志级别: 在运行scrapy时,会有大量日志信息的输出,为了减少CPU的使用率。可以设置log输出信息为I... ...
分类:
其他好文 时间:
2019-09-30 22:01:56
阅读次数:
90
scrapy的每一个爬虫,暂停时可以记录暂停状态以及爬取了哪些url,重启时可以从暂停状态开始爬取过的URL不在爬取 实现暂停与重启记录状态 方法一: 方法二: 在settings.py文件里加入下面的代码: 使用命令scrapy crawl 爬虫名,就会自动生成一个sharejs.com的目录,然 ...
分类:
其他好文 时间:
2019-09-30 21:31:42
阅读次数:
136
第一步 打开一个电影的评论界面: 哪吒之魔童降世:https://maoyan.com/films/1211270 我们发现这里只显示10条评论,而我们需要爬取10w条数据,所以不能从此页面进行抓包,所以放弃!!!! 于是又上网查,终于看到一篇文章说到开发者模式可以直接切换到手机模式; 第二步 切换 ...
分类:
其他好文 时间:
2019-09-30 21:25:49
阅读次数:
100
crawlscrapy简单使用方法 1.创建项目:scrapy startproject 项目名例如:scrapy startproject wxapp windows下,cmd进入项目路径例如d:\pythonCode\spiderProject>scrapy startproject wxapp ...
分类:
其他好文 时间:
2019-09-30 19:53:29
阅读次数:
104
58二手房解析房源名称 爬取彼岸图网图片 乱码问题: 1.整体 - response = requests.get(url=xxx,headers=xxx) -response.encoding = 'utf-8' 2. 单独 - xxx.encode('iso-8859-1').decode('g ...
分类:
其他好文 时间:
2019-09-30 14:46:53
阅读次数:
112
url = ' http://www.shicimingju.com/book/sanguoyanyi.html' ...
分类:
其他好文 时间:
2019-09-30 09:50:52
阅读次数:
135
今日重点: 1、代理服务器的设置 2、模拟登陆过验证码(静态验证码) 3、cookie与session 4、线程池 1、代理服务器的设置 有时候使用同一个IP去爬取同一个网站,久了之后会被该网站服务器屏蔽。那么我们应该1怎么处理这个问题呢? 解决思路: 如果我们爬取网站,对方服务器显示的是别人的IP ...
分类:
其他好文 时间:
2019-09-29 12:43:24
阅读次数:
84
背景 其实爬虫的本质就是client发请求批量获取server的响应数据,如果我们有多个url待爬取,只用一个线程且采用串行的方式执行,那只能等待爬取一个结束后才能继续下一个,效率会非常低。需要强调的是:对于单线程下串行N个任务,并不完全等同于低效,如果这N个任务都是纯计算的任务,那么该线程对cpu ...
分类:
其他好文 时间:
2019-09-28 16:17:57
阅读次数:
103