码迷,mamicode.com
首页 > 其他好文 > 详细

爬虫练习之爬取绿盟漏洞报告的标题与地址

时间:2015-11-25 21:54:13      阅读:369      评论:0      收藏:0      [点我收藏+]

标签:

#coding:utf-8
# 作者@in2
#抓取完之后,将页面的编码调整为utf-8即可:)


import urllib2,bs4
from bs4 import BeautifulSoup  #导入相关模块

h = open(CVE.html,w)     #打开CVE.html文件,不存在的话自动新建一个

for pages in range(1,30246):      #取页数1到30246

    strpage = str(pages)      
    print "当前是第" + strpage +"个漏洞"
    url = "http://www.nsfocus.net/vulndb/"+strpage #拼接url
    r = urllib2.Request(url) #实例化request对象

    page = urllib2.urlopen(r) #打开

    s = BeautifulSoup(page)      #解析


    text = s.findAll(attrs = {align : [center] }) #寻找标签条件align=‘center‘

    for each in text:               #遍历
        if each.name == div:    
            print str(each.b).decode(utf-8)
            if each.b:       #不为空,写入
                h.write(<div align="center"><b>漏洞名称:</b></div>+str(each)+<div align="center"><b>url:+url+"</b></div>"+"<hr/><br/>")
            elif each == "没有漏洞记录":                  
                h.write("没有漏洞记录") 
            else:
                print("代码抽了QAQ")
                pass

h.close()                           #关闭文件,释放资源

 

爬虫练习之爬取绿盟漏洞报告的标题与地址

标签:

原文地址:http://www.cnblogs.com/in-2/p/4995656.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!