Python中xPath技术和BeautifulSoup的使用

时间：2017-10-03 23:21:21 阅读：297 评论：0 收藏：0 [点我收藏+]

标签：stream content html 开始倒数 .class esc tor 基本知识

xpath基本知识

XPath语法：使用路径表达式来选取XML或HTML文档中的节点或节点集

路径表达式

nodename:表示选取此节点的所有子节点

/ ：表示从根节点选取

// ：选择任意位置的某个节点。

. ：选取当前节点

.. ：选取当前节点的父节点

@ ：选取属性

谓语实例

实现效果路劲表达式

选取属于classroom子元素的第一个student元素 /classroom/student[1]

选取属于classroom子元素的最后一个student元素 /classroom/student[last()]

选取属于classroom子元素的倒数第二个stduent元素 /classroom/stduent[last()-1]

选取最前面的两个属于classroom元素的子元素的student元素 /classroom/stduent[position()<3]

选取所有拥有名为lang的属性的name元素 //name[@lang]

选取所有name元素，且这些元素拥有值为eng的lang属性 //name[@lang=‘en‘]

选取classroom元素的所有student元素，且其中的age元素的值须大于20 .classroom.stduent[age>20]

选取classroom元素中的student元素的所有name元素，且其中的age元素的值须大于20 /classroom/stduent[age>20]/name

通配符“*”与“|”操作

实现效果路径表达式

选取classroom元素的所有子元素 /classroom/*

选取文档中的所有元素 //*

选取所有带有属性的name元素 //name[@*]

选取stduent元素的所有name和age元素 //stduent/name | //stduent/age

选取属于classroom元素的student元素的所有name元素，以及文档中所有的age元素 /classroom/stduent/name | //age

XPath轴步的语法为轴名称:节点测试[谓语]

轴名称含义

child 选取当前节点的所有子节点

parent 选取当前节点的父节点

ancestor 选取当前节点的所有先辈(父、祖父等)

ancestor-or-self 选取当前节点的所有先辈以及当前节点本身

descendant 选取当前节点的所有后代节点

descendant-or-self 选取当前节点的所有后代节点以及当前节点本身

preceding 选取文档中当前节点的开始标记之前的所有节点

following 选取文档中当前节点的结束标记之后的所有节点

preceding-sibling 选取当前节点之前的所有同级节点

following-sibling 选取当前节点之后的所用同级节点

self 选取当前节点

attribute 选取当前节点的所有属性

namespace 选取当前节点的所有命名空间

XPath轴示例分析

实现效果路径表达式

选取当前classroom节点中子元素的teacher节点 /classroom/child：：teacher

选取所有id节点的父节点 //id/parent：：*

选取所有以classid为子节点的祖先节点 //classid/ancestor：：*

选取classroom节点下的所有后代节点 /classroom/descendant：：*

选取所有以student为父节点的id元素 //student/descendant：：id

选取所有classid元素的祖先节点及本身 //classid/ancestor-or-self：：*

选择/classroom/student本身及其所有后代元素 /classroom/student/descendant-or-self：：*

选取/classroom/teacher之前的所有同级节点，结果就是选所有的student节点 /classroom/teacher/preceding-sibling：：*

选取/classroom中第二个stduent之后的所有同级节点 /classroom/student[2]/following-sibling：：*

选取/classroom/teacher节点所有之前的节点(除其祖先外)，不仅仅是student节点，还有里面的子节点 /classroom/teacher/preceding：：*

选取/classroom中第二个student之后的所有节点，结果就是选择了teacher节点及其子节点 /classroom/student[2]/following：：*

选取student节点，单独使用没有什么意思 //stduent/self：：*

选取/classroom/teacher/name节点下的所有属性 /classroom/teacher/name/attribute：：*

XPath运算符示例分析

含义实例

选取classroom元素的所有student元素 /classroom/student[age=19+1] /classroom/stduent[age=5*4] /classroom/student[age=21-1]

且其中的age元素的值须等于20 /classroom/student[age=40div2]

类似可以选取大于、小于、不等于等操作

or 运算实例 /classroom/stduent[age<20 or age>25] .................age小于20或者大于25

and 运算实例 /classroom/stduent[age>20 and age<25] ..................age在20 到25 之间

mod 计算除法的余数

实例代码

from lxml import etree

contentStream = open(r‘xpathText.xml‘, ‘rb‘)
content = contentStream.read().decode(‘utf-8‘)
root = etree.XML(content)
print(content)
print(‘-------‘)
em = root.xpath(‘/classroom/student[2]/following::*‘)
print(em[0].xpath(‘./name/text()‘))#获取name标签中文本的内容
print(em[0].xpath(‘./name/@lang‘)) #获取name标签中属性名为lang的属性值

View Code

BeautifulSoup基础知识

Python中xPath技术和BeautifulSoup的使用

标签：stream content html 开始倒数 .class esc tor 基本知识

原文地址：http://www.cnblogs.com/09120912zhang/p/7624643.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行