爬取中国大学排名

时间：2019-11-17 21:00:15 阅读：136 评论：0 收藏：0 [点我收藏+]

标签：http request element 排名 ima ref 对齐标签 find

爬取最好大学网上最新2019年的中国大学排名情况

1.url：http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html。

2.使用requests库和bs4库实现对中国大学排名的定向爬取。

3.对包含输出的列表进行排版。

 1 import requests
 2 from bs4 import BeautifulSoup #对bs4库中的Beautiful类引用
 3 import bs4#引入bs4库
 4 #获取界面的信息
 5 def getHTMLText(url) :
 6     try:
 7         r = requests.get(url,timeout = 30)
 8         r.raise_for_status()
 9         r.encoding = r.apparent_encoding
10         return r.text
11     except:
12         print("获取失败")
13     return ‘‘
14 #将获取的信息中有用的存入列表中
15 def fillUnivlist(ulist,html):
16     soup = BeautifulSoup(html,"html.parser")#html的方式保存
17     #查看源代码，大学排行信息包含在<tbody>,<tr>,<td>标签里面
18     #先解析<tbody>的位置
19     for tr in soup.find(‘tbody‘).children:
20         #用isinstance方法检测tr标签，如果tr标签不是bs4库中的Tag类型，过滤
21         if isinstance(tr,bs4.element.Tag):
22             #查出所有的tr标签后，查出td标签,将所有的td标签存入列表当中
23             tds = tr(‘td‘)
24             #在列表中增加需要的对应字段，大学排名，大学名称，大学评分
25             ulist.append([tds[0].string,tds[1].string,tds[2].string,tds[3].string])
26 
27     pass
28 #打印出获得的的信息
29 def printUnivlist(ulist,num):
30     #num为自己想要获取大学的数量
31     #打印表头
32     print("{:^10}\t{:^6}\t{:^10}\t{:^10}".format("排名","学校名称","省市","总分"))
33     for i in range(num):
34         u = ulist[i]
35         print("{:^10}\t{:^6}\t{:^10}\t{:^10}".format(u[0],u[1],u[2],u[3]))
36 
37 
38     print(‘Suc‘+str(num))
39 
40 
41 def main():
42     uinfo=[]     #定义一个存放信息的列表
43     url=‘http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html‘
44     html = getHTMLText(url)
45     fillUnivlist(uinfo,html)
46     printUnivlist(uinfo,20)#查看20个大学
47 main()