对Xpath爬取网页数据的理解

时间：2016-05-12 17:21:29 阅读：895 评论：0 收藏：0 [点我收藏+]

标签：

首先对Xpath进行安装配置

安装Xpath 安装 lxml库从Python第三方库下载，或者 pip install lxml

学会使用Xpath

导入etree模块

from lxml import etree

使用Xpath 提取网页感兴趣代码

Selector= etree.HTML(html) (html 网页源代码，通过html = requests.get(...).text获取)

把获取的源代码转换成可以用Xpath提取的文本

content = Selector.xpath(一段神奇的符号)

这段符号可以通过在审查元素中右击 → copy Xpath 来获取

如下图

技术分享

Xpath 匹配的思想：

根据HTML的结构：

1、树状结构

2、逐层展开

3、逐层定位

4、寻找独立节点

应用Xpath提取内容：

定位根节点 //

往下层寻找 /

提取文本内容 /text()

提取属性内容 /@xxxx

举个例子：

如下图

技术分享

Xpath另一种特殊用法 -- 以相同的字符开头

技术分享

举个例子

技术分享

把以test 开头的标签均提取出来

另一种特殊用法– 标签套标签

技术分享

举个例子

利用了string（.），使用了两回xpath

技术分享

学习Xpath的网址：http://search.jikexueyuan.com/course/?q=Python%E7%88%AC%E8%99%AB

对Xpath爬取网页数据的理解

标签：

原文地址：http://blog.csdn.net/jly58fgjk/article/details/51366308

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行