码迷,mamicode.com
首页 > 其他好文 > 详细

爬取哔哩哔哩全站所有投稿在 2020年03月09日 - 2020年03月12日 的播放前百视频

时间:2020-03-12 23:51:01      阅读:116      评论:0      收藏:0      [点我收藏+]

标签:data-   pre   lxml   rom   bilibili   代码   创建   data   http   

 

#哔哩哔哩全站所有投稿在 2020年03月09日 - 2020年03月12日 的播放前百视频
#网页链接:https://www.bilibili.com/ranking?spm_id_from=333.851.b_7072696d61727950616765546162.3S
import requests
from bs4 import BeautifulSoup
#发出request请求,获取html网页
response=requests.get(https://www.bilibili.com/ranking?spm_id_from=333.851.b_7072696d61727950616765546162.3S)
response.text#获取源代码
html=response.text
#解析网页,发现标题title和播放量data-box,提取内容
soup=BeautifulSoup(html,lxml)#构造Soup的对象
a=soup.find(a,class_=title)#python有关键词class了,要加_
res=soup.find_all(a,class_=title)
#for循环提取a标签
num=0
text=‘‘
for i in res:
    num+=1
    text+={}{}\n.format(num,i.string)#先把内容保存到变量里去
print(text)
#保存
with open(rank.text,w,encoding=utf8)as fout:
    fout.write(text)

1.打开网页

2.获取源代码

3.解析网页,提取需要的内容,先找第一名的技术图片

 

 

 

这里找到需要提取的标题a标签,分析特点,它的类是title,在代码中可以用find函数查找

技术图片

 

 但是发现打印只能打出一条,所以改用另一条find_all函数

技术图片

 

 

发现成功将排行榜爬取下来,想到可以用for循环把结果一个个打印出来

技术图片

 

 

因为内容都是按顺序排下来的,所以可以自己弄数字形成排名

技术图片 

 

然后把内容保存到一个变量里去并检查有没有正常保存技术图片

 

 

最后直接保存到文件里面去,创建一个rank.txt,以写入的方式打开,把它赋值到fout这个变量里,fout写入获取到的文本内容

技术图片

 这里是全部代码

#哔哩哔哩全站所有投稿在 2020年03月09日 - 2020年03月12日 的播放前百视频
#网页链接:https://www.bilibili.com/ranking?spm_id_from=333.851.b_7072696d61727950616765546162.3S
import requests
from bs4 import BeautifulSoup
#发出request请求,获取html网页
response=requests.get(‘https://www.bilibili.com/ranking?spm_id_from=333.851.b_7072696d61727950616765546162.3S‘)
response.text#获取源代码
html=response.text
#解析网页,发现标题title和播放量data-box,提取内容
soup=BeautifulSoup(html,‘lxml‘)#构造Soup的对象
a=soup.find(‘a‘,class_=‘title‘)#python有关键词class了,要加_
res=soup.find_all(‘a‘,class_=‘title‘)
#for循环提取a标签
num=0
text=‘‘
for i in res:
    num+=1
    text+=‘{}{}\n‘.format(num,i.string)#先把内容保存到变量里去
print(text)
#保存
with open(‘rank.text‘,‘w‘,encoding=‘utf8‘)as fout:
    fout.write(text)

这是获取数据的截图

技术图片

 

爬取哔哩哔哩全站所有投稿在 2020年03月09日 - 2020年03月12日 的播放前百视频

标签:data-   pre   lxml   rom   bilibili   代码   创建   data   http   

原文地址:https://www.cnblogs.com/syc0403/p/12483501.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!