码迷,mamicode.com
首页 > Web开发 > 详细

用html.parser抓网页中的超链接,返回list

时间:2016-04-03 11:42:49      阅读:173      评论:0      收藏:0      [点我收藏+]

标签:

#python3


from
html.parser import HTMLParser class MyHTMLParser(HTMLParser): """ 1、tag是的html标签,attrs是标签的属性 2、抓网页中的超链接,返回list 3、抓网页标题, 4、handle_data:处理数据,就是<xx>data</xx>中间的那些数据 """ def __init__(self): HTMLParser.__init__(self) self.links=[] def handle_starttag(self, tag, attrs): if tag=="a": for key,value in attrs: if key=="href" and "http:" in value: self.links.append(value) data="""html页面的源码""" #初始化类MyHTMLParser parser=MyHTMLParser() #喂养,塞html页面的代码进去,会返回一个class类 parser.feed(data) #操作类方法和属性 print(parser.links)#操作属性

 

用html.parser抓网页中的超链接,返回list

标签:

原文地址:http://www.cnblogs.com/dengyg200891/p/5349460.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!