bs4和xpath的用法

时间：2020-05-23 11:43:44 阅读：99 评论：0 收藏：0 [点我收藏+]

标签：对象 xpath 取数 bs4 ring tle contain XML 获取

1.bs4的运用
    流程：
        1.导入相应的模块：from bs4 import BeautifulSoup
        2.实例化一个 BeautifulSoup 对象，并将我们要解析的数据加载到该对象中：soup = BeautifulSoup(‘要解析的数据‘,‘lxml(解析器)‘)
        3.定位标签：（1）.通过标签名定位：soup.标签名 第一个标签
                   （2）.通过标签名和属性定位soup.find(‘标签名‘,attr = {‘属性名‘:属性值}) 返回的是查询到的第一个标签
                                            soup.findAll(‘标签名‘,attr = {‘属性名‘:属性值}) 返回的一个由所有结果构成的列表
                    （3). 通过选择器定位:select(‘selector‘)其中selector像css那样的层级关系eg：(‘.card > h1 > a ‘)返回的也是一个列表
        4.数据的提取：要注意的是findAll与select返回的都是列表，所有我们必须确定到要提取的某个标签
                    （1）string:取出标签直系的文本内容
.                    (2)text：取出标签中所有的文本内容
                     (3)标签名[‘属性名‘]:获取属性的值
        5.爬取一个小说实例：https://www.cnblogs.com/KingOfCattle/p/12907968.html

2.xpath的运用:
    流程:
        (1). 导入相应的模块:from lxml import etree
        (2).实例化etree对象,并将我们要解析的数据加载到该对象中：解析本地etree.parse(‘要解析的数据‘)，解析爬取的数据etree.HTML(‘要解析的数据‘)
        (3).该对象结合xpath表达式进行提取数据,获取的数据都存储在列表里面了
                xpath表达式: 1.表示一个层级,但是/在最左边的时候表示从根标签开始定位
                            2.//跳多个层级，最左边的时候表示从任意地方开始定位
                            3.属性定位://标签名[@属性名=‘属性值‘]
                            4.索引定位://标签名[index],index索引是从1开始
                            5.模糊定位模糊匹配：
                                    //div[contains(@class, "ng")] 定位到class属性值中包含ng的div标签
                                    //div[starts-with(@class, "ta")] 定位到class属性值中是以ta开头的div标签
                数据的提取:
                            /text() 获取值系内容
                            //text() 获取所有的内容
                            /@属性名 获取属性值

bs4和xpath的用法

标签：对象 xpath 取数 bs4 ring tle contain XML 获取

原文地址：https://www.cnblogs.com/KingOfCattle/p/12941418.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行