PYTHON_数据解析之xpath

时间：2021-02-16 12:20:18 阅读：0 评论：0 收藏：0 [点我收藏+]

xpath解析：最常用且最便捷高效的一种解析方式，通用性

-xpath解析原理：

　　-1、实例化一个etree的对象，且需要将被解析的页面源码数据加载到该对象中。

　　-2、调用etree对象中的xpath方法结合这xpath表达式实现标签的定位和内容的捕获

-环境的安装：

　　-pip install lxml

-如何实例化一个etree对象：from lxml import etree

　　-1、将本地的html文档中的源码加载到etree对象中：

　　　　etree.parse(filePath)

　　-2、可以将从互联网上获取的源码数据加载到该对象

　　　　etree.HTML(‘page_text’)

-xpath(‘xpath表达式’)

-xpath表达式：

　　- /:表示的是从根节点开始定位，表示的是一个层级

　　- //:表示的是多个层级，可以表示从任意位置开始定位

　　-属性定位： //div[@class=’song’] tag[@attrName=”attrValue”]

　　-索引定位：//div[@class=’song]/p[3] 索引从1开始的

　　-取文本

　　　　- /text() 获取的是标签中直系的文本内容

　　　　- //text() 标签中非直系的文本内容（所有的文本内容）

　　-取属性：

　　　　/@attrName ==> img/src

原文地址：https://www.cnblogs.com/industrial-fd-2019/p/14399412.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行