码迷,mamicode.com
首页 > Web开发 > 详细

对Xpath爬取网页数据的理解

时间:2016-05-12 17:21:29      阅读:895      评论:0      收藏:0      [点我收藏+]

标签:

首先对Xpath进行安装配置

         安装Xpath         安装 lxml库       从Python第三方库下载,或者 pip  install  lxml

学会使用Xpath

       导入etree模块

                from  lxml import  etree

使用Xpath 提取网页感兴趣代码

         Selector= etree.HTML(html)       (html 网页源代码,通过html = requests.get(...).text获取)

         把获取的源代码转换成可以用Xpath提取的文本

         content = Selector.xpath(一段神奇的符号)

         这段符号可以通过在审查元素中右击 → copy Xpath 来获取

如下图

技术分享

 

Xpath 匹配的思想:

  根据HTML的结构:

1、  树状结构

2、  逐层展开

3、  逐层定位

4、  寻找独立节点

 

应用Xpath提取内容:

  定位根节点  //

  往下层寻找  /

  提取文本内容   /text()

  提取属性内容   /@xxxx

举个例子:

如下图

技术分享

 技术分享

Xpath另一种特殊用法 -- 以相同的字符开头

技术分享

举个例子

技术分享

 

 把以test 开头的标签均提取出来


另一种特殊用法– 标签套标签

技术分享

举个例子

     利用了string(.),使用了两回xpath


技术分享


学习Xpath的网址:http://search.jikexueyuan.com/course/?q=Python%E7%88%AC%E8%99%AB

对Xpath爬取网页数据的理解

标签:

原文地址:http://blog.csdn.net/jly58fgjk/article/details/51366308

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!