数据的查找和提取[2]——xpath解析库的使用

时间：2019-09-02 12:17:00 阅读：67 评论：0 收藏：0 [点我收藏+]

xpath解析库的使用

　　在上一节，我们介绍了正则表达式的使用，但是当我们提取数据的限制条件增多的时候，正则表达式会变的十分的复杂，出一丁点错就提取不出来东西了。但python已经为我们提供了许多用于解析数据的库，接下来几篇博客就给大家简单介绍一下xpath、beautiful soup以及pyquery的使用。今天首先进入xpath的学习。

　　1.1实例

在引入实例之前，我们先编写一个html，如下所示：

<div>
<url>
<li class="item-0"><a href="link3.html">first item</a></li>
<li class="item-inactive"><a href="link3.html">second item</a></li>
<li class="item-1"><a href="link4.html">third item</a></li>
<li class="item-0"><a href="link5.html">fourth item</a>
</url>
</div>接下来我们都将围绕这段进行尝试

技术图片

首先我们使用lxml库

第一步先将这段文本转换为一个etree的对象，再进行转换，输出结果，我们输出之后发现，愿文本中缺失的闭标签被自动的补齐，所以输出的是一段完整的html，如下所示：

技术图片

我们可以看到最后一个li标签被补齐了，又多出来了html和body

这就变成了一段完整的html啦～

　　1.2找节点

下面主要介绍一下用xpath寻找需要的节点

　　 1.2.1父子节点

与正则表达式相同，xpath也拥有一个书写表达式的准则，如下所示：

/ 　　直接的子节点

//　　所有的子节点

..　　父节点　　

*　　所有节点　　

@　　属性

[]　　中括内是约束条件

接下来先介绍一下如何查找子节点

技术图片

首先看result的值，用//表示所有的子节点，后面跟*代表把所有节点。

再看result1的值，用//表示所有子节点，后面跟li，代表所有的 li 节点。

这里还需要注意一点的是，找到的内容都是一个列表的形式，那么当然也可以用数组的方式去找啦～

第三个我们暂且不看，这就是找对应的子节点的方法。

下面我们看一下如何找父节点

其实规则和之前的一样，我们只需先找到需要父节点的节点，然后用 .. 就可以定位到上一层的父节点了。就是这么简单。

　　 1.2.2 根据属性值的限制

　　上面那个代码片的result2，就是在找到需要找的节点类型 li 之后，后面跟了[]来表示约束条件，括号里的内容也很好理解，就是属性href为link1.html的 li 节点

　　那么有人可能会问了，如果要对一个节点有多个属性同时进行限制呢？

　　其实也很简单，因为逻辑运算符在这里当然适用，只用在中括号中，用and or 不等号进行连接，就能同时对多属性进行筛选

　　 1.2.3 一个节点有多个属性值

　　假如说现在有一段html是这样的

<li class="item-0 item"><a href="link3.html">first item</a></li>
　　如果再用
之前的方法对class值为item-0的节点进行筛选，就找不到这个了，因为，里面不是一个属性，还有另外一个item呢，所以我们这里要用到contains这个方法，
改为
etree.xpath(‘//li[contains(class,"item-0")]‘)即可