码迷,mamicode.com
首页 > 其他好文 > 详细

Scrapy模块

时间:2017-04-26 22:22:48      阅读:144      评论:0      收藏:0      [点我收藏+]

标签:mil   文件   创建   spider   表达式   path   元素   提取   selector   

1、 Scrapy选择器XPath和CSS

scrapy提取数据有自己的一套机制,他们被称为选择器(selector),通过特定的XPath或者CSS表达式来"选择""HTML文件中的某个部分"

Xpath是一门在XML文件中选择节点的语言,也可以用在HTML,CSS是一门将HTML文档样式化的语言,选择器由他定义,并于特定的HTML元素的样式相关联

scrapy的选择器构建与lxml库之上,这意味着他们的速度和解析准确性上非常相似。

(1)、 Xpath选择器

在Xpath中有7种类型的节点:元素,属性,文本,命名空间,处理指令,注释以及文档节点。XML文档是被作为节点数来对待的。

创建一个superHero.xml文档

<superHero>
<class>
<name lang="en">Tony Stark</name>
<alias>Iron Man</alias>
<sex>male</sex>
<birthday>1969</birthday>
<age>47</age>
</class>
<class>
<name lang="en">Peter Benjamin</name>
<alias>Spider Man</alias>
<sex>male</sex>
<birthday>unknown</birthday>
<age>unknown</age>
</class>
<class>
<name lang="en">Steven Rogers</name>
<alias>Captain Amercia</alias>
<sex>male</sex>
<birthday>19200704</birthday>
<age>96</age>
</class>
</superHero>

 在这个superHero中,<superHero>是文档节点,<alias>是元素节点,lang="en"是属性节点。

Xpath使用路径表达式在XML文档中选取节点。下表列出了最常用的路径表达式

 

  1.   

Scrapy模块

标签:mil   文件   创建   spider   表达式   path   元素   提取   selector   

原文地址:http://www.cnblogs.com/cmustard/p/6771331.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!