标签:site ash content alt img png log 数字电视 标题
本例子用scrapy-splash抓取一点资讯网站给定关键字抓取咨询信息。
给定关键字:电视;数字电视;OTT
抓取信息内如下:
1、资讯标题
2、资讯链接
3、资讯时间
4、资讯来源
针对上面的网站信息,来进行抓取
1、首先抓取信息列表,由于信息列表的class值有“item doc style-small-image style-content-middle” 和“item doc style-multi-image”两种情况,所以用contains包含item doc style-的语法来抓
抓取代码:sels = site.xpath(‘//a[contains(@class,"item doc style-")]‘)
2、抓取标题
抓取代码:sels = site.xpath(‘//a[contains(@class,"item doc style-")]‘)
3、抓取链接
抓取代码:sels = site.xpath(‘//a[contains(@class,"item doc style-")]‘)
4、抓取日期
抓取代码:sels = site.xpath(‘//a[contains(@class,"item doc style-")]‘)
5、抓取来源
抓取代码:sels = site.xpath(‘//a[contains(@class,"item doc style-")]‘)
标签:site ash content alt img png log 数字电视 标题
原文地址:http://www.cnblogs.com/shaosks/p/6961951.html