码迷,mamicode.com
首页 > 编程语言 > 详细

python应用:爬虫框架Scrapy系统学习第三篇——初识scrapy

时间:2019-01-20 20:08:37      阅读:156      评论:0      收藏:0      [点我收藏+]

标签:data   pat   sel   按钮   python应用   技术分享   @Value   ima   打印   

scrapy的最通用的爬虫流程:UR2IM

  U:URL

  R2:Request 以及 Response

  I:Item

  M:More URL

在scrapy shell中打开服务器一个网页

  cmd中执行:scrapy shell http://www.baidu.com    (可以使用exit()退出)

  技术分享图片

  技术分享图片

此时,scrapy执行一个默认的GET请求,并得到一个状态码为200的响应

可以使用response.body打印页面源码(或部分字符)

例:response.body[:50]

  技术分享图片

同时,也可使用response.xpath(‘  ‘)来测试XPath表达式的效果

例:response.xpath(‘//*[@id="su"]‘)          获取百度一下按钮处的源码

  技术分享图片

  response.xpath(‘//*[@id="su"]‘).xpath(‘.//@value‘)       获取上述局部源码中的value属性值      

  注:.//@value是相对XPath表达式;用于获取selector的得到的局部源码中的信息

  技术分享图片

  response.xpath(‘//*[@id="su"]‘).xpath(‘.//@value‘).extract()        获取上述结果中的源码(源码不等于selector,等于data值

  技术分享图片

下一步操作是:从响应中将数据抽取到Item的字段中(通常使用/text()获取文本字段

  通常,我们使用//*[@id="su"][1]这种形式

  目的:为防止结尾某些细微之处的嵌套信息没有注意到

 

python应用:爬虫框架Scrapy系统学习第三篇——初识scrapy

标签:data   pat   sel   按钮   python应用   技术分享   @Value   ima   打印   

原文地址:https://www.cnblogs.com/jpapplication/p/10295774.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!