标签:png href enc port beautiful 校园 contents col blog
1.用requests库和BeautifulSoup4库,爬取校园新闻列表的时间、标题、链接、来源。
import requests from bs4 import BeautifulSoup url = requests.get("http://news.gzcc.cn/html/xiaoyuanxinwen/") url.encoding = "utf-8" soup = BeautifulSoup(url.text,‘html.parser‘) #print(soup.head.title.text) #找出含有特定标签的html元素:‘ID’前缀‘#’;‘class’前缀‘.’,其它直接soup.select(‘p‘) for news in soup.select(‘li‘): if len(news.select(‘.news-list-title‘))>0: time = news.select(‘.news-list-info‘)[0].contents[0].text #时间 title = news.select(‘.news-list-title‘)[0].text #标题 href = news.select(‘a‘)[0][‘href‘] #链接 href_text = requests.get(href) #链接内容 href_text.encoding = "utf-8" href_soup = BeautifulSoup(href_text.text,‘html.parser‘) href_text_body = href_soup.select(‘.show-content‘)[0].text print(time,title,href,href_text_body)
2.选一个自己感兴趣的主题,做类似的操作,为“爬取网络数据并进行文本分析”做准备。
用requests库和BeautifulSoup4库爬取新闻列表
标签:png href enc port beautiful 校园 contents col blog
原文地址:http://www.cnblogs.com/husiqi/p/7606167.html