码迷,mamicode.com
首页 > 其他好文 > 详细

用requests库和BeautifulSoup4库爬取新闻列表

时间:2017-09-27 20:45:16      阅读:185      评论:0      收藏:0      [点我收藏+]

标签:关注   log   list   澳大利亚   attr   summary   post   parser   cat   

1、用requests库和BeautifulSoup4库,爬取校园新闻列表的时间、标题、链接、来源。

import requests
from bs4 import BeautifulSoup

re = requests.get("http://news.gzcc.cn/html/xiaoyuanxinwen/")
re.encoding = utf-8

soup = BeautifulSoup(re.text,html.parser)
s = soup.select(a)

for news in s:
    if len(news.select(".news-list-title"))>0:
        title=news.select(".news-list-title")[0].text
        time=news.select(".news-list-info")[0].contents[0].text
        content=news.select(".news-list-info")[0].contents[1].text
        url=news.attrs[href]
        text=news.select(".news-list-description")[0].text
        print(title,  time,  content,  url,  text)

输出结果:

感悟信仰力量,加强信仰教育——我校举行信仰教育研习班开班典礼 2017-09-26 马克思主义学院 http://news.gzcc.cn/html/2017/xiaoyuanxinwen_0926/8262.html 9月21日下午,我校“信仰教育研习班”开班典礼及教育动员大会在我校第四教学楼第二学术报告厅举行。
澳大利亚阿德莱德大学Simon Futo一行来访我校 2017-09-25 国际学院 http://news.gzcc.cn/html/2017/xiaoyuanxinwen_0925/8252.html 9月25日,澳大利亚最古老、最享有盛誉的八大名校之一阿德莱德大学来访我校。
杨文轩教授入选中国哲学社会科学最有影响力学者 2017-09-25 学校综合办 http://news.gzcc.cn/html/2017/xiaoyuanxinwen_0925/8249.html 9月23日,我校校长杨文轩教授入选中国哲学社会科学一级学科最有影响力学者。
我校军训受到人民日报等媒体广泛关注 2017-09-23 学校综合办 http://news.gzcc.cn/html/2017/xiaoyuanxinwen_0923/8246.html 9月22日晚,我校新生军训团国旗方队的训练视频,被人民日报、共青团中央等众多新闻和机构媒体进行了报道。
责任信念记心头 扬帆起航正当时——我校举行2017级新生军训总结表彰大会 2017-09-22 学生处 http://news.gzcc.cn/html/2017/xiaoyuanxinwen_0922/8232.html 9月22日上午,我校在足球场隆重举行2017级新生军训总结表彰大会。
英国赫尔大学商学院副院长Mr. Lynne Brrow一行来我校访问交流 2017-09-21 国际学院 http://news.gzcc.cn/html/2017/xiaoyuanxinwen_0921/8225.html 9月21日,英国赫尔大学商学院副院长Mr  Lynne Brrow、中国区代表葛恒等一行七人来访我校。
广东省教育厅高教处领导莅临我校调研 2017-09-21 国际学院 http://news.gzcc.cn/html/2017/xiaoyuanxinwen_0921/8226.html 9月20日下午,广东省教育厅高教处处长郑文一行莅临我校调研物流管理专业校企协同育人情况。
广东省教育厅交流合作处领导莅临我校考察 2017-09-21 国际学院 http://news.gzcc.cn/html/2017/xiaoyuanxinwen_0921/8217.html 9月20日,广东省教育厅交流合作处处长李金俊、副处长周国平一行莅临我校考察和指导工作。
杨文轩主持召开广东省民办教育协会常务会议 2017-09-20 综合办公室 http://news.gzcc.cn/html/2017/xiaoyuanxinwen_0920/8205.html 9月19日下午,广东省民办教育协会会长、我校校长杨文轩教授在我校主持召开广东省民办教育协会常务会议。
我校开展消防安全演练教育活动 2017-09-20 保卫处 http://news.gzcc.cn/html/2017/xiaoyuanxinwen_0920/8208.html 9月19日,我校联合地方有关单位,开展突发事件应急疏散演练暨消防灭火实操能力培训活动。

2、选一个自己感兴趣的主题,做类似的操作,为“爬取网络数据并进行文本分析”做准备。

import requests
from bs4 import BeautifulSoup

re = requests.get(https://www.cnblogs.com/cate/python/)
re.encoding = utf-8

soup = BeautifulSoup(re.text,html.parser)
s = soup.select(a)

for program in s:
    title = program.select(.titlelnk)[0].text
    summary = program.select(.post)item_summary)[0].text
    print(title,summary)

 

用requests库和BeautifulSoup4库爬取新闻列表

标签:关注   log   list   澳大利亚   attr   summary   post   parser   cat   

原文地址:http://www.cnblogs.com/xypbk/p/7603344.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!