码迷,mamicode.com
首页 >  
搜索关键字:爬取    ( 4795个结果
03 爬虫实例-获取网页弹幕内容
需求:爬取哔哩哔哩网页弹幕内容,并将爬取的内容以五角星的形式显示出来 思路: 实现: 使用到的类库,如果没有,需要下载,下载命令: 知识点: request 向对方服务器发送请求 BeautifulSoup 解析爬取的弹幕内容 pandas 分析弹幕数据 jieba 中文分词器,或称为中文词组切片器 ...
分类:Web程序   时间:2019-10-28 20:51:02    阅读次数:147
Python中使用requests和parsel爬取喜马拉雅电台音频
场景 喜马拉雅电台: https://www.ximalaya.com/ 找到一步小说音频,这里以下面为例 https://www.ximalaya.com/youshengshu/16411402/ 博客:https://blog.csdn.net/badao_liumang_qizhi关注公众号 ...
分类:编程语言   时间:2019-10-28 00:50:42    阅读次数:198
关于爬取新浪首页显示乱码的解决办法
爬取新浪的主页面,想采集主要页面的新闻板块的主要条目 import requests from bs4 import BeautifulSoup import re html = requests.get("https://www.sina.com.cn") bsobj = BeautifulSou ...
分类:其他好文   时间:2019-10-27 19:09:56    阅读次数:361
【python数据分析实战】电影票房数据分析(一)数据采集
本文是爬虫及可视化的练习项目,目标是爬取猫眼票房的全部数据并做可视化分析。 [toc] 1、获取url 我们先打开猫眼票房http://piaofang.maoyan.com/dashboard?date=2019 10 22 ,查看当日票房信息, 但是在通过xpath对该url进行解析时发现获取不 ...
分类:编程语言   时间:2019-10-27 12:24:30    阅读次数:121
爬取安居客指定市的所有小区信息
在爬取的过程中发现,访问频率太快会导致网站弹出滑动验证,所以设定了时间随机时间延迟,这样子就能保证爬取的信息完整,我选的是青岛市的小区,后续也可以添加输入市名爬取相关内容,二级页面的房子的平均价格是动态生成的,需要发送一个请求得到一个json,请求的url比较复杂,而且还要再发送一次请求,因此直接在 ...
分类:其他好文   时间:2019-10-27 11:10:15    阅读次数:216
爬取电影天堂最新电影的名称和下载链接(增量爬取mysql存储版)
这次的程序是在上次的基础上进行修改,把持久化储存方式改成mysql,并增加了断点续爬功能. 数据库的话需要提前建好,代码如下: 总结:1.增量爬取的原理其实很简单,就是将爬取过的url储存入库,然后在下次爬取的是后将url与库中的url进行比较,去掉已经爬过的url,从而实现断点续爬.这一点很重要, ...
分类:数据库   时间:2019-10-27 11:07:41    阅读次数:90
selenium自动化测试工具模拟登陆爬取当当网top500畅销书单
selenium自动化测试工具可谓是爬虫的利器,基本动态加载的网页都能抓取,当然随着大型网站的更新,也出现针对selenium的反爬,有些网站可以识别你是否用的是selenium访问,然后对你加以限制. 当当网目前还没有对这方面加以限制,所以今天就用这个练习熟悉一下selenium操作,我们可以试一 ...
分类:其他好文   时间:2019-10-27 10:49:32    阅读次数:99
爬取YY评级信息
该网站主要是访问频率太高会被封账号 ...
分类:其他好文   时间:2019-10-27 10:48:28    阅读次数:870
使用xpath爬取猫眼电影排行榜
最近在学习xpath,在网上找资料的时候,发现一个新手经常拿来练手的项目,爬取猫眼电影前一百名排行的信息,很多都是跟崔庆才的很雷同,基本照抄.这里就用xpath自己写了一个程序,同样也是爬取猫眼电影,获取的信息是一样的,这里提供一个另外的解法. 说实话,对于网页信息的匹配,还是推荐用xpath,虽然 ...
分类:其他好文   时间:2019-10-27 10:42:35    阅读次数:130
爬取电影天堂最新电影的名称和下载链接
此次的目标是爬取电影天堂最新200页的最新电影的电影名称和下载链接,电影的下载链接在二级页面,所以需要先匹配一级页面的所有链接,然后逐个请求二级页面,代码如下: 一级页面: 二级页面: 总结: 1.在爬取电影天堂的时候发现,请求一级页面的时候得到的网页源码中居然缺少了一些标签,所以刚开始总是匹配不到 ...
分类:其他好文   时间:2019-10-27 10:42:07    阅读次数:137
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!