原文:【猪猪-后端】WebMagic框架搭建的爬虫,根据自定义规则,直接抓取,使用灵活,Demo部署即可查看。
源代码下载地址:http://www.zuidaima.com/share/1581523414404096.htm
如果要使用注解方式实现,也是支持的。
@TargetUrl("http://my.oschina.net/flashsword/blog/\\d+") public class OschinaBlog { @ExtractBy("//title") private String title; @ExtractBy(value = "div.BlogContent",type = ExtractBy.Type.Css) private String content; @ExtractBy(value = "//div[@class=‘BlogTags‘]/a/text()", multi = true) private List<String> tags; public static void main(String[] args) { OOSpider.create( Site.me().addStartUrl("http://my.oschina.net/flashsword/blog"), new ConsolePageModelPipeline(), OschinaBlog.class).run(); } }
版权声明:本文为博主原创文章,未经博主允许不得转载。
【猪猪-后端】WebMagic框架搭建的爬虫,根据自定义规则,直接抓取,使用灵活,Demo部署即可查看。
原文地址:http://blog.csdn.net/springmvc_springdata/article/details/46953019