码迷,mamicode.com
首页 > 系统相关 > 详细

Scrapy——2 Scrapy shell

时间:2018-11-10 17:52:49      阅读:223      评论:0      收藏:0      [点我收藏+]

标签:xpath   ons   selector   节点   定义   地方   bsp   tor   extra   

Scrapy——2      Scrapy shell

 

 


 

 

什么是Scrapy shell

Scrapy shell终端是一个交互终端,我们可以在未启动spider的情况下尝试调试代码,也可以用来测试Xpath或CSS表达式,查看他们的工作方式,方便我们爬取的网页中提取数据

Scrapy内置选择器:

  1. xpah():传入xpath表达式,返回该方法所对应的所有节点的selector list列表
  2. extract():序列化该节点为Unicode字符串并返回list  /  extracrt_first()
  3. css():传入CSS表达式,返回该表达式所对用的所有的节点的selector list 列表,语法同BeautifulSoup4
  4. re():根据传入的正则表达式对数据进行提取,返回Unicode字符串list列表

 


 

 

什么是sipder
Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。 换句话说,Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方

技术分享图片

实战

当我们爬取腾讯的招聘信息时,假设我们需要的数据是,岗位名称,链接,类别,工作地点,发布时间。

我们需要匹配多个数据,可以先用scrapy shell url 先尝试解析,命令回车,会进入python的交互模式,如果安装了ipython,

会优先进入ipython的环境。

然后responde已经默认请求完成。直接response.xpath(‘//**‘)就可以解析数据,非常方便

在项目开发中非常实用

技术分享图片

 

Scrapy——2 Scrapy shell

标签:xpath   ons   selector   节点   定义   地方   bsp   tor   extra   

原文地址:https://www.cnblogs.com/pywjh/p/9939740.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!