码迷,mamicode.com
首页 > 其他好文 > 详细

爬取校园新闻首页的新闻

时间:2018-04-03 23:52:47      阅读:238      评论:0      收藏:0      [点我收藏+]

标签:imp   blog   sel   标题   src   com   png   pos   color   


1. 用requests库和BeautifulSoup库,爬取校园新闻首页新闻的标题、链接、正文。

2. 分析字符串,获取每篇新闻的发布时间,作者,来源,摄影等信息。

3. 将其中的发布时间由str转换成datetime类型。

4. 将完整的代码及运行结果截图发布在作业上。

import requests
from bs4 import BeautifulSoup
 
url = http://news.gzcc.cn/html/xiaoyuanxinwen/
res = requests.get(url)
res.encoding = utf-8
soup = BeautifulSoup(res.text, html.parser)
print(soup.select(.news-list)[0].select(li))
for new in soup.select(.news-list)[0].select(li):
    # 标题
    ti = new.select(.news-list-title)[0].text
    # 时间
    tim = new.select(span)[0].text
    # 来源
    source = new.select(span)[1].text
    print(标题:+ ti +  时间:+ tim +  来源:+ source)
    # 链接
    a = new.select(a)[0].attrs[href]
    resd = requests.get(a)
    resd.encoding = utf-8
    soupd = BeautifulSoup(resd.text, html.parser)
    # 正文
    print(正文:)
    content = soupd.select(#content)[0].text.split()
    for c in content:
        print(c)
 
info = 发布时间:2018-04-01 11:57:00      作者:陈流芳  审核:权麟春  来源:马克思主义学院
dt = info.lstrip(发布时间:)[:15]
print(dt)
print(info.find(作者))#找到‘时间’位置
print(info[info.find(审核):].split()[0].lstrip(审核:))
print(info[info.find(作者:):info.find(审核:)])
 
from datetime import datetime
now = datetime.now()
print(now)
print(tim)
da = datetime.strptime(tim, %Y-%m-%d)
print(da)
n = now.strftime(%y/%m/%d)
print(n)

技术分享图片技术分享图片技术分享图片

爬取校园新闻首页的新闻

标签:imp   blog   sel   标题   src   com   png   pos   color   

原文地址:https://www.cnblogs.com/ChalingStreet/p/8711388.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!