码迷,mamicode.com
首页 > 编程语言 > 详细

python爬虫获取校园网新闻

时间:2015-08-10 08:16:29      阅读:931      评论:0      收藏:0      [点我收藏+]

标签:

首先打开校园网(以我的学校为例"http://www.zhbit.com/")

技术分享

现在我们需要获取上图红色框框的数据并输出

下面我们打开浏览器的开发模式并定位到相应的代码

技术分享

不难发现,学校要闻只显示5条信息

下面我们就开始写程序

# -*- coding:utf-8 -*-
import urllib
import urllib2
import re

url = "http://www.zhbit.com/"

#利用urllib2模块打开校园网
res = urllib2.urlopen(url)
#把校园网的源代码存储到html变量当中
html = res.read()

#根据相应的网页代码编写正则表达式匹配
pattern = re.compile(r‘<li><a href=.*?title=.*?>(.*?)</a><span>(.*?)</span></li>‘)
#获取所有符合正则表达式的字符串
h = pattern.findall(html)

#因为主页前5个符合正则表达式的内容刚好是我们需要的内容
for i in range(5):
    #h[i][0]正则表达式第一个(.*?),h[i][1]为第二个
    #输出h[i][0](题目)和h[i][1](日期)
    print h[i][0]+" "+h[i][1]


运行结果

技术分享

python爬虫获取校园网新闻

标签:

原文地址:http://my.oschina.net/u/1177799/blog/489978

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!