Beautiful Soup (一）

时间：2018-06-06 01:06:04 阅读：196 评论：0 收藏：0 [点我收藏+]

标签：limit charset 作者改进 str parent his logs 维护

一、Beautiful Soup库的理解

1、Beautiful Soup库可以说是对HTML进行解析、遍历、维护“标签树”的功能库

2、pip install bs4

3、from bs4 import BeautifulSoup #beautifulsoup4库使用时是简写的bs4

二、Beautiful Soup类的基本元素

1、Tag——标签，最基本的信息组织单元，分别用<>和</>表明开头和结尾

2、Name——标签的名字，<p>...</p>的名字是‘p‘,格式：<tag>.name

3、Attributes——标签的属性，字典形式组织，格式：<tag>.attrs

4、NavigableString——标签内非属性字符串，<>...</>中的字符串，格式：<tag>.string

5、Comment——标签内字符串的注释部分，一种特殊的Comment类型（尖括号叹号表示注释开始：）

三、获取标签的方法

1、soup = BeautifulSoup(demo,‘html.parser‘)

2、soup.li.name #a标签的名字

3、soup.li.parent.name #a标签的父标签的名字

4、soup.li.parent.parent.name #a标签的父标签的父标签名字

5、t = soup.li #获得第一个a标签

6、t.attrs #a标签的属性

7、soup.li.string #获得a标签内非属性字符串（NavigableString ）注意：

soup = BeautifulSoup(data,‘lxml‘)

t = soup.li.string

print(type(t),t)

t = soup.ol.li.string

print(type(t),t)

8、soup.ol.string #也可能是获得Comment标签；可通过类型进行判断

四、使用

数据文件：

data = ‘‘‘<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>soup测试</title>
    <title class="warm">你那温情的一笑，搞得我瑟瑟发抖</title>
</head>
<body>
<div class="tang">
    <ul>
        <li class="hello" id="world"><a href="http://www.baidu.com" title="出塞"></a></li>
        <list><a href="https://www.baidu.com" title="出塞" style="font-weight: bold"></a></list>
        <li><a href="http://www.163.com" class="taohua" title="huahua">人面不知何处去，桃花依旧笑春风</a></li>
        <lists class="hello"><a href="http://mi.com" id="hong" title="huahua">去年今日此门中，人面桃花相映红</a></lists>
        <li id="wo"><a href="http://qq.com" name="he" id="gu">故人西辞黄鹤楼，烟花三月下扬州</a></li>
    </ul>
    <ul>
        <li class="hello" id="sf"><a href="http://www.baidu.com" title="出塞"></a></li>
        <list><a href="https://www.baidu.com" title="出塞"></a></list>
        <li><a href="http://www.163.com" class="taohua">人面不知何处去，桃花依旧笑春风</a></li>
        <lists class="hello"><a href="http://mi.com" id="fhsf">去年今日此门中，人面桃花相映红，不知桃花何处去，出门依旧笑楚风</a></lists>
        <li id="fs"><a href="http://qq.com" name="he" id="gufds">故人西辞黄鹤楼，烟花三月下扬州</a></li>
    </ul>
</div>
<div id="meng">
    <p class="jiang">
        <span>三国猛将</span>
    <ol>
        <li>关羽</li>
        <li>张飞</li>
        <li>赵云</li>
        <li>马超</li>
        <li>黄忠</li>
    </ol>
    <div class="cao">
        <ul>
            <li>典韦</li>
            <li>许褚</li>
            <li>张辽</li>
            <li>张郃</li>
            <li>于禁</li>
            <li>夏侯惇</li>
        </ul>
    </div>
    </p>
</div>
</body>
</html>‘‘‘