码迷,mamicode.com
首页 > 其他好文 > 详细

豌豆荚游戏排行榜爬虫源码

时间:2016-05-16 17:12:26      阅读:157      评论:0      收藏:0      [点我收藏+]

标签:

var configs = {  
    domains: ["apps.wandoujia.com"],  
    scanUrls: ["http://apps.wandoujia.com/api/v1/apps?type=weeklytopgame&max=12&start=0"],  
    contentUrlRegexes: ["http://www\\.wandoujia\\.com/apps/.*"],  
    helperUrlRegexes: ["http://apps\\.wandoujia\\.com/api/v1/apps\\?type=weeklytopgame&max=12&start=\\d+"],//可留空  
    fields: [  
        {  
            // 第一个抽取项  
            name: "title",  
            selector: "//span[contains(@class,‘title‘)]",  
            required: true //是否不能为空  
        },  
        {  
            // 第二个抽取项  
            name: "download",  
            selector: "//i[@itemprop=‘interactionCount‘]",  
            required: false //是否不能为空  
        },  
        {  
            //第三个抽取项  
            name:"thumb",  
            selector:"//div[contains(@class,‘app-icon‘)]/img[@itemprop=‘image‘]/@src",  
        }  
          
    ]  
};  
configs.onProcessHelperUrl = function(url, content, site) {  
    var jarr = JSON.parse(content);  
    //发现内容页  
    for (var i = 0, n = jarr.length; i < n; i++) {  
        var new_url = "http://www.wandoujia.com/apps/"+jarr[i].packageName;  
        site.addUrl(new_url);  
    }  
    var currentStart = parseInt(url.substring(url.indexOf("&start=") + 7));  
    var start = currentStart+12;  
    if(start < 100){  
        site.addUrl("http://apps.wandoujia.com/api/v1/apps?type=weeklytopgame&max=12&start="+start);  
    }  
    return true;  
}  
var crawler = new Crawler(configs);  
crawler.start();

  

看到有人问豌豆荚游戏榜单的爬虫如何写,这里特别贴一下完整的代码。

这里只爬了豌豆荚应用的名称,下载量和图标地址,有其他需求的朋友可以自己写xpath进行提取。

运行方法:复制代码到神箭手云爬虫平台上运行即可。

豌豆荚游戏排行榜爬虫源码

标签:

原文地址:http://www.cnblogs.com/datafactory/p/5498310.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!