Scrapy模块

时间：2017-04-26 22:22:48 阅读：144 评论：0 收藏：0 [点我收藏+]

标签：mil 文件创建 spider 表达式 path 元素提取 selector

1、 Scrapy选择器XPath和CSS

scrapy提取数据有自己的一套机制，他们被称为选择器（selector），通过特定的XPath或者CSS表达式来"选择""HTML文件中的某个部分"

Xpath是一门在XML文件中选择节点的语言，也可以用在HTML，CSS是一门将HTML文档样式化的语言，选择器由他定义，并于特定的HTML元素的样式相关联

scrapy的选择器构建与lxml库之上，这意味着他们的速度和解析准确性上非常相似。

(1)、 Xpath选择器

在Xpath中有7种类型的节点：元素，属性，文本，命名空间，处理指令，注释以及文档节点。XML文档是被作为节点数来对待的。

创建一个superHero.xml文档

<superHero>
<class>
<name lang="en">Tony Stark</name>
<alias>Iron Man</alias>
<sex>male</sex>
<birthday>1969</birthday>
<age>47</age>
</class>
<class>
<name lang="en">Peter Benjamin</name>
<alias>Spider Man</alias>
<sex>male</sex>
<birthday>unknown</birthday>
<age>unknown</age>
</class>
<class>
<name lang="en">Steven Rogers</name>
<alias>Captain Amercia</alias>
<sex>male</sex>
<birthday>19200704</birthday>
<age>96</age>
</class>
</superHero>

在这个superHero中，<superHero>是文档节点，<alias>是元素节点，lang="en"是属性节点。

Xpath使用路径表达式在XML文档中选取节点。下表列出了最常用的路径表达式

Scrapy模块

标签：mil 文件创建 spider 表达式 path 元素提取 selector

原文地址：http://www.cnblogs.com/cmustard/p/6771331.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行