标签:
http://blog.csdn.net/my2010sam/article/details/14526223
---------------------
对html的解析是网页抓取的基础,分析抓取的结果找到自己想要的内容或标签以达到抓取的目的。
HTMLParser是python用来解析html的模块。它可以分析出html里面的标签、数据等等,是一种处理html的简便途径。 HTMLParser采用的是一种事件驱动的模式,当HTMLParser找到一个特定的标记时,它会去调用一个用户定义的函数,以此来通知程序处理。它主要的用户回调函数的命名都是以handler_开头的,都是HTMLParser的成员函数。当我们使用时,就从HTMLParser派生出新的类,然后重新定义这几个以handler_开头的函数即可。这几个函数包括:
def handle_starttag(self,tag,attr):
#注意:tag不区分大小写,此时也可以解析 <A 标签
# SGMLParser 会在创建attrs 时将属性名转化为小写。
if tag==‘a‘:
for href,link in attr:
if href.lower()=="href":
pass
1. 基本解析,找到开始和结束标签
2. 解析html的超链接和链接显示的内容
或:
标签:
原文地址:http://www.cnblogs.com/kungfupanda/p/4655247.html