码迷,mamicode.com
首页 > Web开发 > 详细

【猪猪-后端】WebMagic框架搭建的爬虫,根据自定义规则,直接抓取,使用灵活,Demo部署即可查看。

时间:2015-07-19 11:59:21      阅读:166      评论:0      收藏:0      [点我收藏+]

标签:爬虫   webmagic   蜘蛛   抓取   

原文:【猪猪-后端】WebMagic框架搭建的爬虫,根据自定义规则,直接抓取,使用灵活,Demo部署即可查看。

源代码下载地址:http://www.zuidaima.com/share/1581523414404096.htm

技术分享

如果要使用注解方式实现,也是支持的。

@TargetUrl("http://my.oschina.net/flashsword/blog/\\d+")
public class OschinaBlog {

    @ExtractBy("//title")
    private String title;

    @ExtractBy(value = "div.BlogContent",type = ExtractBy.Type.Css)
    private String content;

    @ExtractBy(value = "//div[@class=‘BlogTags‘]/a/text()", multi = true)
    private List<String> tags;

    public static void main(String[] args) {
        OOSpider.create(
            Site.me().addStartUrl("http://my.oschina.net/flashsword/blog"),
            new ConsolePageModelPipeline(), OschinaBlog.class).run();
    }
}

版权声明:本文为博主原创文章,未经博主允许不得转载。

【猪猪-后端】WebMagic框架搭建的爬虫,根据自定义规则,直接抓取,使用灵活,Demo部署即可查看。

标签:爬虫   webmagic   蜘蛛   抓取   

原文地址:http://blog.csdn.net/springmvc_springdata/article/details/46953019

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!