码迷,mamicode.com
首页 > 其他好文 > 详细

『爬虫问题解决』(一)nutch异常

时间:2017-11-24 17:07:48      阅读:244      评论:0      收藏:0      [点我收藏+]

标签:roo   repr   ase   starting   问题解决   正则表达   wait   run   没有   

Nutch在eclipse中编译的时候出现了异常

InjectorJob: starting at 2015-09-23 10:20:55

InjectorJob: Injecting urlDir: /root/urls

InjectorJob: Using class org.apache.gora
.hbase.store.HBaseStore as the Gora storage class.
InjectorJob: java.lang.RuntimeException: job failed: name=[jobTest]inject /root/urls, jobid=job_local2082550065_0001

at org.apache.nutch.util.NutchJob.waitForCompletion(NutchJob.java:54)

at org.apache.nutch.crawl.InjectorJob.run(InjectorJob.java:231)

at org.apache.nutch.crawl.InjectorJob.inject(InjectorJob.java:252)

at org.apache.nutch.crawl.InjectorJob.run(InjectorJob.java:275)

at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
at org.apache.nutch.crawl.InjectorJob.main(InjectorJob.java:284)

解决方法是:一是,检查conf/nutch-default的plugins,设置成下面的即可

<property>  <name>plugin.folders</name>  <value>plugins</value><property>

    自我感觉这种说法不准确,印着这里两种情况前面一种是在ide中运行,后面是在命令行中使用!

    二是,出现这个异常基本是URL过滤配置出现问题

    在nutch/conf和nutch/runtime/conf,检查这两个文件夹下的regex-urlfilter.txt,

    我出现问题的原因是,种子文件/urls里的网址已经更改了,但URL过滤配置里的正则表达式并没有随之更新。




    『爬虫问题解决』(一)nutch异常

    标签:roo   repr   ase   starting   问题解决   正则表达   wait   run   没有   

    原文地址:http://www.cnblogs.com/jpfss/p/7890896.html

    (0)
    (0)
       
    举报
    评论 一句话评论(0
    登录后才能评论!
    © 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
    迷上了代码!