标签:技术 简单 pre his 完成 string python 爬虫 for 方式
2017-07-26 10:10:11
Beautiful Soup可以解析html 和 xml 格式的文件。
Beautiful Soup库是解析、遍历、维护“标签树”的功能库。使用BeautifulSoup库非常简单,只需要两行代码,就可以完成BeautifulSoup类的创建,这里命名为soup,接下来就可以对soup进行相关处理了。一个BeautifulSoup类对应html或者xml的全部内容。
BeautifulSoup库将任意html文件转换成utf-8格式
一、解析器
BeautifulSoup类创建的时候第二个参数是解析器,上面的代码中用的解析器为‘html.parser’,BeautifulSoup支持的解析器有:
二、BeautifulSoup类的基本元素
三、soup的内容遍历
标签树的遍历有三种方式,即下行遍历,上行遍历和平行遍历。
(1)下行遍历属性
举例:
#遍历儿子节点 for child in soup.body.children: print(child) #遍历子孙节点 for child in soup.body.descendants: print(child)
值得注意的是子孙节点不仅包含标签,还包含标签之间的字符串类型,这点需要注意与排除。
(2)上行遍历的属性
soup.parent为空,需要进行区分,可以使用for循环对parents进行遍历:
(3)平行遍历的属性
#遍历后续节点 for sibling in soup.a.next_sibling: print(sibling) #遍历前续节点 for sibling in soup.a.previous_sibling: print(sibling)
标签:技术 简单 pre his 完成 string python 爬虫 for 方式
原文地址:http://www.cnblogs.com/TIMHY/p/7239105.html