码迷,mamicode.com
首页 > 其他好文 > 详细

BeautifulSoup库的使用

时间:2020-02-06 22:57:18      阅读:80      评论:0      收藏:0      [点我收藏+]

标签:contents   XML   des   string   简单   rom   基本   end   技术   

一、beautifulSoup库的安装

pip install BeautifulSoup

技术图片

 

 

二、beautifulsoup库的使用

1、调用beautifulsoup库

from bs4 import beautifulsoup4

import bs4

2、beautifulsoup简单使用

from bs4 import BeautifulSoup

soup = BeautifulSoup("<html>data<html>","html.parser")
soup2 = BeautifulSoup("<html>data<html>","html.parser")

BeautifulSoup对应一个HTML/XML文档的全部内容

3、beautifulsoup解析器

bs4的HTML解析器    BeautifulSoup(mk,‘html.parser‘)    安装bs4库

lxml的HTML解析器    BeautifulSoup(mk,‘lxml‘)         pip install lxml

lxml的XML解析器       BeautifulSoup(mk,‘xml‘)         pip install lxml

html5lib的解析器       BeautifulSoup(mk,‘html5lib‘)        pip install html5lib

4、beautifulsoup类的基本元素

Tag          标签,最基本的信息组织单元,分别用<>和</>标明开头和结尾

Name         标签的名字,<p>...</p>的名字是‘p‘,格式:<tag>.name

Attributes        标签的属性,字典形式组织,格式:<tag>.attrs

NavigableString      标签内非属性字符串,<>...</>中的字符串,格式:<tag>.string

Comment         标签内字符串的注释部分,一种特殊的Comment类型

5、标签树的下行遍历

.contents        子节点的列表,将<tag>所有的儿子节点存入列表

.children         子节点的迭代类型,与.contents类似,用于循环遍历儿子节点

.descendants      子节点的迭代类型,包括所有的子孙节点,用于循环遍历

技术图片

 

技术图片

 

 

 6、标签树上行遍历

.parent      节点的父亲标签

.parents       节点先辈标签的迭代类型,用于循环遍历先辈节点

技术图片

 

 7、标签树的平行遍历属性

.next_sibling        返回按照HTML文本顺序的下一个平行节点标签

.previous_sibling      返回按照HTML文本顺序的上一个平行节点标签

.next_siblings         迭代类型,返回按照HTML文本顺序的后续所有平行节点标签

.previous_siblings       迭代类型,返回按照HTML文本顺序的前续所有平行节点标签

条件:平行遍历必须发生在同一个父节点下的各节点间

技术图片

 

BeautifulSoup库的使用

标签:contents   XML   des   string   简单   rom   基本   end   技术   

原文地址:https://www.cnblogs.com/zihkj/p/12271096.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!