标签:
首先对Xpath进行安装配置
安装Xpath 安装 lxml库 从Python第三方库下载,或者 pip install lxml
学会使用Xpath
导入etree模块
from lxml import etree
使用Xpath 提取网页感兴趣代码
Selector= etree.HTML(html) (html 网页源代码,通过html = requests.get(...).text获取)
把获取的源代码转换成可以用Xpath提取的文本
content = Selector.xpath(一段神奇的符号)
这段符号可以通过在审查元素中右击 → copy Xpath 来获取
如下图
Xpath 匹配的思想:
根据HTML的结构:
1、 树状结构
2、 逐层展开
3、 逐层定位
4、 寻找独立节点
应用Xpath提取内容:
定位根节点 //
往下层寻找 /
提取文本内容 /text()
提取属性内容 /@xxxx
举个例子:
如下图
Xpath另一种特殊用法 -- 以相同的字符开头
举个例子
把以test 开头的标签均提取出来
另一种特殊用法– 标签套标签
举个例子
利用了string(.),使用了两回xpath
标签:
原文地址:http://blog.csdn.net/jly58fgjk/article/details/51366308