需求:爬取哔哩哔哩网页弹幕内容,并将爬取的内容以五角星的形式显示出来 思路: 实现: 使用到的类库,如果没有,需要下载,下载命令: 知识点: request 向对方服务器发送请求 BeautifulSoup 解析爬取的弹幕内容 pandas 分析弹幕数据 jieba 中文分词器,或称为中文词组切片器 ...
分类:
Web程序 时间:
2019-10-28 20:51:02
阅读次数:
147
场景 喜马拉雅电台: https://www.ximalaya.com/ 找到一步小说音频,这里以下面为例 https://www.ximalaya.com/youshengshu/16411402/ 博客:https://blog.csdn.net/badao_liumang_qizhi关注公众号 ...
分类:
编程语言 时间:
2019-10-28 00:50:42
阅读次数:
198
爬取新浪的主页面,想采集主要页面的新闻板块的主要条目 import requests from bs4 import BeautifulSoup import re html = requests.get("https://www.sina.com.cn") bsobj = BeautifulSou ...
分类:
其他好文 时间:
2019-10-27 19:09:56
阅读次数:
361
本文是爬虫及可视化的练习项目,目标是爬取猫眼票房的全部数据并做可视化分析。 [toc] 1、获取url 我们先打开猫眼票房http://piaofang.maoyan.com/dashboard?date=2019 10 22 ,查看当日票房信息, 但是在通过xpath对该url进行解析时发现获取不 ...
分类:
编程语言 时间:
2019-10-27 12:24:30
阅读次数:
121
在爬取的过程中发现,访问频率太快会导致网站弹出滑动验证,所以设定了时间随机时间延迟,这样子就能保证爬取的信息完整,我选的是青岛市的小区,后续也可以添加输入市名爬取相关内容,二级页面的房子的平均价格是动态生成的,需要发送一个请求得到一个json,请求的url比较复杂,而且还要再发送一次请求,因此直接在 ...
分类:
其他好文 时间:
2019-10-27 11:10:15
阅读次数:
216
这次的程序是在上次的基础上进行修改,把持久化储存方式改成mysql,并增加了断点续爬功能. 数据库的话需要提前建好,代码如下: 总结:1.增量爬取的原理其实很简单,就是将爬取过的url储存入库,然后在下次爬取的是后将url与库中的url进行比较,去掉已经爬过的url,从而实现断点续爬.这一点很重要, ...
分类:
数据库 时间:
2019-10-27 11:07:41
阅读次数:
90
selenium自动化测试工具可谓是爬虫的利器,基本动态加载的网页都能抓取,当然随着大型网站的更新,也出现针对selenium的反爬,有些网站可以识别你是否用的是selenium访问,然后对你加以限制. 当当网目前还没有对这方面加以限制,所以今天就用这个练习熟悉一下selenium操作,我们可以试一 ...
分类:
其他好文 时间:
2019-10-27 10:49:32
阅读次数:
99
最近在学习xpath,在网上找资料的时候,发现一个新手经常拿来练手的项目,爬取猫眼电影前一百名排行的信息,很多都是跟崔庆才的很雷同,基本照抄.这里就用xpath自己写了一个程序,同样也是爬取猫眼电影,获取的信息是一样的,这里提供一个另外的解法. 说实话,对于网页信息的匹配,还是推荐用xpath,虽然 ...
分类:
其他好文 时间:
2019-10-27 10:42:35
阅读次数:
130
此次的目标是爬取电影天堂最新200页的最新电影的电影名称和下载链接,电影的下载链接在二级页面,所以需要先匹配一级页面的所有链接,然后逐个请求二级页面,代码如下: 一级页面: 二级页面: 总结: 1.在爬取电影天堂的时候发现,请求一级页面的时候得到的网页源码中居然缺少了一些标签,所以刚开始总是匹配不到 ...
分类:
其他好文 时间:
2019-10-27 10:42:07
阅读次数:
137