码迷,mamicode.com
首页 > 其他好文 > 详细

Nutch2.x常遇问题集锦

时间:2014-11-26 11:08:57      阅读:185      评论:0      收藏:0      [点我收藏+]

标签:style   blog   io   ar   color   os   sp   java   on   

1、nutch2.3-snapshot中batchid为null引发的.NullPointerException异常:

Exception in thread "main" java.lang.NullPointerException
at org.apache.nutch.parse.ParserJob.getBatchIdFilter(ParserJob.java:265)
at org.apache.nutch.parse.ParserJob.run(ParserJob.java:253)
at org.apache.nutch.crawl.Crawler.runTool(Crawler.java:69)
at org.apache.nutch.crawl.Crawler.run(Crawler.java:174)
at org.apache.nutch.crawl.Crawler.run(Crawler.java:253)
at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70)
at org.apache.nutch.crawl.Crawler.main(Crawler.java:260)

这里有点没搞懂,batchid为null是没有fetch的url,怎么会出现在parserjob中,暂时不管,我们直接忽略掉为null的batchid即可,在ParserJob.java的getBatchIdFilter函数中增加代码遇到null即return即可,如下所示:

 private MapFieldValueFilter<String, WebPage> getBatchIdFilter(String batchId) {
    if (batchId==null||batchId.equals(REPARSE.toString())
        || batchId.equals(Nutch.ALL_CRAWL_ID.toString())) {
      return null;
    }

 

Nutch2.x常遇问题集锦

标签:style   blog   io   ar   color   os   sp   java   on   

原文地址:http://www.cnblogs.com/e-life/p/4122623.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!