码迷,mamicode.com
首页 > 编程语言 > 详细

Python爬虫——定向爬取“中国大学排名网”

时间:2020-02-12 13:27:19      阅读:125      评论:0      收藏:0      [点我收藏+]

标签:数据结构   orm   观察   源代码   设计   网页   span   排名   格式化输出   

内容整理自中国大学MOOC——北京理工大学-蒿天-Python网络爬虫与信息提取 相关实战章节

 

我们预爬取的url如下

http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html

网页节选

技术图片

在浏览器中读取网页源代码

技术图片

 

可以 发现表格数据信息是直接写入HTML页面信息中,所以我们可以直接采取定向爬虫操作。

 

我们的整体设计思路如下:

1.从网络上获取大学排名网络内容

2.提取网页内容中信息到合适的数据结构

3.利用数据结构展示并输出结果

 

仔细观察可以发现,HTML的结构中,每个<tr>标签包含一所大学的全部信息,而一组<tr>内,大学的校名、省市、名次等信息由<td>标记

所有<tr>均为<tbody>的子节点

根据设计思路几网页结构信息,代码如下

 1 import requests
 2 from bs4 import BeautifulSoup
 3 import bs4
 4 
 5 def getHTMLText(url):  #获取url信息
 6     try:
 7         r = requests.get(url,timeout = 30)
 8         r.raise_for_status()
 9         r.encoding = r.apparent_encoding
10         return r.text
11     except:
12         return ""
13 
14 def fillUnivList(ulist,html):  #将一个html页面放入一个列表
15     soup = BeautifulSoup(html,"html.parser")
16     #每个<tr>包含一所大学的所有信息
17     #所有<tr>信息包在<tbody>中
18     for tr in soup.find(tbody).children:
19         if isinstance(tr,bs4.element.Tag):  #过滤掉非标签信息,以取出包含在<tr>标签中的bs4类型的Tag标签
20             tds = tr(td)  #等价于tr.find_all(‘td‘),在tr标签中找td标签内容
21             # print(tds)
22             ulist.append([tds[0].string,tds[1].string,tds[3].string,tds[2].string])
23             #td[0],[1],[3],[2],分别对应每组td信息中的排名,学校名称,得分,区域。将这些信息从摘取出来
24 
25 
26 def printUnivList(ulist,num):  #将列表信息输出
27     print("{:^10}\t{:^6}\t{:^10}\t{:^10}".format("排名","大学名称","得分","省市"))
28     for i in range(num):
29         u = ulist[i]
30         print("{:^10}\t{:^6}\t{:^10}\t{:^10}".format(u[0],u[1],u[2],u[3]))
31 
32 if __name__ == __main__:
33     uinfo = []
34     url = "http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html"
35     html = getHTMLText(url)
36     fillUnivList(uinfo,html)
37     printUnivList(uinfo,20)  #暂时只看前20所学校

输出信息如下

技术图片

 

 

 其中第27行处,{:^10}为Python的格式化输出,30表示输出宽度约束为30个字符,^表示输出时右对齐,若宽度小于字符串的实际宽度,以实际宽度输出

 

为了使输出结果更整齐,我们可以对于输出部分进行优化

 

我们在输出时用到了format()方法,这样就会产生一个问题:当中文字符宽度不够时,方法会默认采用西文字符填充。而中西文字符宽度并不相同,这就是导致每行字符无法一一对齐的原因。

 

这里我们就可以设置format()填充方式为,采用中文字符的空格填充,即chr(12288)

于是我们对printUnivList()方法做如下修改

def printUnivList(ulist,num):  #将列表信息输出
    tplt = "{0:^10}\t{1:{4}^10}\t{2:^10}\t{3:^10}"  #{4}表示需要用到format方法中,从0伊始定义的第[4]个变量
    print(tplt.format("排名","大学名称","得分","省市",chr(12288)))
    for i in range(num):
        u = ulist[i]
        print(tplt.format(u[0],u[1],u[2],u[3],chr(12288)))

输出结果如下

技术图片

 

 这样就对齐了

 

Python爬虫——定向爬取“中国大学排名网”

标签:数据结构   orm   观察   源代码   设计   网页   span   排名   格式化输出   

原文地址:https://www.cnblogs.com/fcbyoung/p/12297037.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!