标签:dataframe http ret 下载 enc 方便 headers for soup
1.打开所要爬取的网页https://s.weibo.com/weibo?q=%E7%83%AD%E6%90%9C&wvr=6&b=1&Refer=SWeibo_box
2.打开开发者工具查找所要爬取的数据位置
3.进行爬取并数据可视化
import requests#引入requests库用于下载网页
from bs4 import BeautifulSoup#BeautifulSoup用于解析网页
import pandas as pd#引入pandas方便数据可视化
from pandas import DataFrame
url="https://s.weibo.com/weibo?q=%E7%83%AD%E6%90%9C&wvr=6&b=1&Refer=SWeibo_box"#所要爬取的网页
headers = {‘User-Agent‘:‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36‘}#
r=requests.get(url)#请求网站
r.encoding=‘utf-8‘#对页面内容重新编码
data=r.text
soup=BeautifulSoup(data,‘html.parser‘)#使用BeautifulSoup工具
print(soup.prettify())#显示网站结构
a=[]#创建一个空列表
index=[]
for i in soup.find_all(class_="td-01 ranktop"):#把排名添加进空列表
a.append(i.get_text().strip())
for k in soup.find_all(class_="td-01"):#把热度标题添加进空列表
index.append(k.get_text().strip())
data=[a,index]
print(data)
s=pd.DataFrame(data,index=["排名","热点标题\热度"])
print(s.T)#将所得数据进行可视化
标签:dataframe http ret 下载 enc 方便 headers for soup
原文地址:https://www.cnblogs.com/han935010/p/12531377.html