搜索关键字：爬取，搜索到4795个结果！码迷,mamicode.com！

python 利用selenium爬取百度文库的word文章

今天学习如何使用selenium库来爬取百度文库里面的收费的word文档结果运行报错：因为在百度文库页面底部需要点击“继续阅读”才可以加载到完整的页面，所以必须使用这两行代码来将浏览器滚动到“继续阅读”这个位置，然后执行点击按钮。但是却爆出了黄色部分的错误。找了好久，最后在stackover ...

分类：编程语言时间：2019-09-30 23:53:41 阅读次数：228

爬虫——使用多进程爬取视频数据

以梨视频为例分析页面请求抓取网页数据。本次抓取梨视频生活分类页面下的部分视频数据，并保存到本地。一、分析网页打开抓取网页，查看网页代码结构，发现网页结构里面存放视频的地址并不是真正的视频地址。进入视频详情页面查看后，可以在response中找到真正的视频地址。保存这个地址的并不是标签，而是一个 ...

分类：系统相关时间：2019-09-30 22:05:45 阅读次数：119

如何提高scrapy的爬取效率

增加并发：默认scrapy开启的并发线程为32个，可以适当进行增加。在settings配置文件中修改CONCURRENT_REQUESTS = 100值为100,并发设置成了为100。降低日志级别：在运行scrapy时，会有大量日志信息的输出，为了减少CPU的使用率。可以设置log输出信息为I... ...

分类：其他好文时间：2019-09-30 22:01:56 阅读次数：90

Scrapy爬虫的暂停和启动

scrapy的每一个爬虫，暂停时可以记录暂停状态以及爬取了哪些url，重启时可以从暂停状态开始爬取过的URL不在爬取实现暂停与重启记录状态方法一：方法二：在settings.py文件里加入下面的代码：使用命令scrapy crawl 爬虫名，就会自动生成一个sharejs.com的目录，然 ...

分类：其他好文时间：2019-09-30 21:31:42 阅读次数：136

爬虫之获取猫眼电影10W评论

第一步打开一个电影的评论界面: 哪吒之魔童降世:https://maoyan.com/films/1211270 我们发现这里只显示10条评论,而我们需要爬取10w条数据,所以不能从此页面进行抓包,所以放弃！！！！于是又上网查，终于看到一篇文章说到开发者模式可以直接切换到手机模式; 第二步切换 ...

分类：其他好文时间：2019-09-30 21:25:49 阅读次数：100

crawlscrapy简单使用方法

crawlscrapy简单使用方法 1.创建项目：scrapy startproject 项目名例如：scrapy startproject wxapp windows下，cmd进入项目路径例如d:\pythonCode\spiderProject>scrapy startproject wxapp ...

分类：其他好文时间：2019-09-30 19:53:29 阅读次数：104

xpath案例爬取58出租房源信息&解析下载图片数据&乱码问题

58二手房解析房源名称爬取彼岸图网图片乱码问题: 1.整体 - response = requests.get(url=xxx,headers=xxx) -response.encoding = 'utf-8' 2. 单独 - xxx.encode('iso-8859-1').decode('g ...

分类：其他好文时间：2019-09-30 14:46:53 阅读次数：112

利用bs4爬取三国演义所有章节标题以及章节内容

url = ' http://www.shicimingju.com/book/sanguoyanyi.html' ...

分类：其他好文时间：2019-09-30 09:50:52 阅读次数：135

05爬虫-requests模块基础（2）

今日重点： 1、代理服务器的设置 2、模拟登陆过验证码（静态验证码） 3、cookie与session 4、线程池 1、代理服务器的设置有时候使用同一个IP去爬取同一个网站，久了之后会被该网站服务器屏蔽。那么我们应该1怎么处理这个问题呢？解决思路：如果我们爬取网站，对方服务器显示的是别人的IP ...

分类：其他好文时间：2019-09-29 12:43:24 阅读次数：84

高性能异步爬虫

背景其实爬虫的本质就是client发请求批量获取server的响应数据，如果我们有多个url待爬取，只用一个线程且采用串行的方式执行，那只能等待爬取一个结束后才能继续下一个，效率会非常低。需要强调的是：对于单线程下串行N个任务，并不完全等同于低效，如果这N个任务都是纯计算的任务，那么该线程对cpu ...

分类：其他好文时间：2019-09-28 16:17:57 阅读次数：103

共4795条上一页 1 ... 117 118 119 120 121 ... 480 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)