码迷,mamicode.com
首页 > 编程语言 > 详细

python爬虫(十二) XPath语法

时间:2020-02-29 20:20:28      阅读:54      评论:0      收藏:0      [点我收藏+]

标签:img   nbsp   html   学习   tag   第一个   就会   pat   查看   

之前学习得是如何进行网络请求,现在开始学习如何进行数据提取

一、选取节点:

在火狐浏览器中,首先要有一个try xpath插件,

 

例如要找网页中所有得div,就在插件中搜索

技术图片

 

 

 就会把所有的div圈出来:技术图片

 

 

1、/  就是在根节点下查找元素(直接子元素) 例如:

技术图片

 

 

 根节点下没有div,所以数量为0.div为子孙节点,html为子节点,body为html的子节点

技术图片

 

 

 

2、//    :查找所有的子孙节点

技术图片

3、@  :选取某个节点的属性,例如div下的id属性,选择拥有id的所有div节点:

 

 技术图片

 

 技术图片

 

 

 二、谓语:就是中括号里面的内容,作用是过滤掉一些节点

1、例如:要获取网页中的第一个Div元素

技术图片

 

 技术图片

 

 2、获得最后一个div元素

技术图片

 

 3、获取前两个div元素

技术图片

 

 4、获取id等于serverTime的input元素

技术图片

5、模糊匹配

技术图片

 

 就是找到class等于的值中有fl的div

三、通配符

1、 *   :查看节点下所有的元素个数

技术图片

 

 2、@*   :查看拥有属性的div元素

技术图片

 

 四、选取多个路径

//dd[@class="job_bt"]||//dd[@class="job-adwantage"]

 

python爬虫(十二) XPath语法

标签:img   nbsp   html   学习   tag   第一个   就会   pat   查看   

原文地址:https://www.cnblogs.com/zhaoxinhui/p/12385132.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!