码迷,mamicode.com
首页 > 编程语言 > 详细

python分布式爬虫css选择器

时间:2017-10-08 21:28:56      阅读:306      评论:0      收藏:0      [点我收藏+]

标签:ons   技术   alt   固定   text   rip   log   ide   strong   

css选择器:

 

excract_first  如果数组为空会抛出异常 用了这个函数之后,就不存在异常,如果提取不到就为空

 

 

 

技术分享

技术分享

技术分享


提取出 标题:

技术分享

======================================================================

:: 是css固定用法 用来提取内容

response.css(.entry-header h1::text).extract()[0]

 

技术分享

>>> response.css(p.entry-meta-hide-on-mobile::text).extract()[0]
\r\n\r\n            2017/02/18 ·  
>>> response.css(p.entry-meta-hide-on-mobile::text).extract()[0].strip()
2017/02/18 ·
>>> response.css(p.entry-meta-hide-on-mobile::text).extract()[0].strip().replace(·,  )
2017/02/18  

 

 技术分享

>>> response.css(.vote-post-up h10::text).extract()
[2]

技术分享

response.css(a[href="#article-comment"] span::text).extract()[0]
 7 评论

完整代码

 技术分享

 

python分布式爬虫css选择器

标签:ons   技术   alt   固定   text   rip   log   ide   strong   

原文地址:http://www.cnblogs.com/Mjonj/p/7638428.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!