码迷,mamicode.com
首页 >  
搜索关键字:爬取    ( 4795个结果
python 利用selenium爬取百度文库的word文章
今天学习如何使用selenium库来爬取百度文库里面的收费的word文档 结果运行报错: 因为在百度文库页面底部需要点击“继续阅读”才可以加载到完整的页面,所以必须使用这两行代码 来将浏览器滚动到“继续阅读”这个位置,然后执行点击按钮。 但是却爆出了黄色部分的错误。找了好久,最后在stackover ...
分类:编程语言   时间:2019-09-30 23:53:41    阅读次数:228
爬虫——使用多进程爬取视频数据
以梨视频为例分析页面请求抓取网页数据。本次抓取梨视频生活分类页面下的部分视频数据,并保存到本地。 一、分析网页 打开抓取网页,查看网页代码结构,发现网页结构里面存放视频的地址并不是真正的视频地址。 进入视频详情页面查看后,可以在response中找到真正的视频地址。保存这个地址的并不是标签,而是一个 ...
分类:系统相关   时间:2019-09-30 22:05:45    阅读次数:119
如何提高scrapy的爬取效率
增加并发: 默认scrapy开启的并发线程为32个,可以适当进行增加。在settings配置文件中修改CONCURRENT_REQUESTS = 100值为100,并发设置成了为100。 降低日志级别: 在运行scrapy时,会有大量日志信息的输出,为了减少CPU的使用率。可以设置log输出信息为I... ...
分类:其他好文   时间:2019-09-30 22:01:56    阅读次数:90
Scrapy爬虫的暂停和启动
scrapy的每一个爬虫,暂停时可以记录暂停状态以及爬取了哪些url,重启时可以从暂停状态开始爬取过的URL不在爬取 实现暂停与重启记录状态 方法一: 方法二: 在settings.py文件里加入下面的代码: 使用命令scrapy crawl 爬虫名,就会自动生成一个sharejs.com的目录,然 ...
分类:其他好文   时间:2019-09-30 21:31:42    阅读次数:136
爬虫之获取猫眼电影10W评论
第一步 打开一个电影的评论界面: 哪吒之魔童降世:https://maoyan.com/films/1211270 我们发现这里只显示10条评论,而我们需要爬取10w条数据,所以不能从此页面进行抓包,所以放弃!!!! 于是又上网查,终于看到一篇文章说到开发者模式可以直接切换到手机模式; 第二步 切换 ...
分类:其他好文   时间:2019-09-30 21:25:49    阅读次数:100
crawlscrapy简单使用方法
crawlscrapy简单使用方法 1.创建项目:scrapy startproject 项目名例如:scrapy startproject wxapp windows下,cmd进入项目路径例如d:\pythonCode\spiderProject>scrapy startproject wxapp ...
分类:其他好文   时间:2019-09-30 19:53:29    阅读次数:104
xpath案例 爬取58出租房源信息&解析下载图片数据&乱码问题
58二手房解析房源名称 爬取彼岸图网图片 乱码问题: 1.整体 - response = requests.get(url=xxx,headers=xxx) -response.encoding = 'utf-8' 2. 单独 - xxx.encode('iso-8859-1').decode('g ...
分类:其他好文   时间:2019-09-30 14:46:53    阅读次数:112
利用bs4爬取三国演义所有章节标题以及章节内容
url = ' http://www.shicimingju.com/book/sanguoyanyi.html' ...
分类:其他好文   时间:2019-09-30 09:50:52    阅读次数:135
05爬虫-requests模块基础(2)
今日重点: 1、代理服务器的设置 2、模拟登陆过验证码(静态验证码) 3、cookie与session 4、线程池 1、代理服务器的设置 有时候使用同一个IP去爬取同一个网站,久了之后会被该网站服务器屏蔽。那么我们应该1怎么处理这个问题呢? 解决思路: 如果我们爬取网站,对方服务器显示的是别人的IP ...
分类:其他好文   时间:2019-09-29 12:43:24    阅读次数:84
高性能异步爬虫
背景 其实爬虫的本质就是client发请求批量获取server的响应数据,如果我们有多个url待爬取,只用一个线程且采用串行的方式执行,那只能等待爬取一个结束后才能继续下一个,效率会非常低。需要强调的是:对于单线程下串行N个任务,并不完全等同于低效,如果这N个任务都是纯计算的任务,那么该线程对cpu ...
分类:其他好文   时间:2019-09-28 16:17:57    阅读次数:103
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!