爬虫练习之爬取绿盟漏洞报告的标题与地址

时间：2015-11-25 21:54:13 阅读：369 评论：0 收藏：0 [点我收藏+]

标签：

#coding:utf-8
# 作者@in2
#抓取完之后,将页面的编码调整为utf-8即可:)


import urllib2,bs4
from bs4 import BeautifulSoup  #导入相关模块

h = open(‘CVE.html‘,‘w‘)     #打开CVE.html文件,不存在的话自动新建一个

for pages in range(1,30246):      #取页数1到30246

    strpage = str(pages)      
    print "当前是第" + strpage +"个漏洞"
    url = "http://www.nsfocus.net/vulndb/"+strpage #拼接url
    r = urllib2.Request(url) #实例化request对象

    page = urllib2.urlopen(r) #打开

    s = BeautifulSoup(page)      #解析


    text = s.findAll(attrs = {‘align‘ : [‘center‘] }) #寻找标签条件align=‘center‘

    for each in text:               #遍历
        if each.name == ‘div‘:    
            print str(each.b).decode(‘utf-8‘)
            if each.b:       #不为空,写入
                h.write(‘<div align="center"><b>漏洞名称:</b></div>‘+str(each)+‘<div align="center"><b>url:‘+url+"</b></div>"+"<hr/><br/>")
            elif each == "没有漏洞记录":                  
                h.write("没有漏洞记录") 
            else:
                print("代码抽了QAQ")
                pass

h.close()                           #关闭文件,释放资源

爬虫练习之爬取绿盟漏洞报告的标题与地址

标签：

原文地址：http://www.cnblogs.com/in-2/p/4995656.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行