标签:xpath ons selector 节点 定义 地方 bsp tor extra
Scrapy——2 Scrapy shell
什么是Scrapy shell
Scrapy shell终端是一个交互终端,我们可以在未启动spider的情况下尝试调试代码,也可以用来测试Xpath或CSS表达式,查看他们的工作方式,方便我们爬取的网页中提取数据
Scrapy内置选择器:
什么是sipder
Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。 换句话说,Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方
实战
当我们爬取腾讯的招聘信息时,假设我们需要的数据是,岗位名称,链接,类别,工作地点,发布时间。
我们需要匹配多个数据,可以先用scrapy shell url 先尝试解析,命令回车,会进入python的交互模式,如果安装了ipython,
会优先进入ipython的环境。
然后responde已经默认请求完成。直接response.xpath(‘//**‘)就可以解析数据,非常方便
在项目开发中非常实用
标签:xpath ons selector 节点 定义 地方 bsp tor extra
原文地址:https://www.cnblogs.com/pywjh/p/9939740.html