码迷,mamicode.com
首页 > 编程语言 > 详细

【问题跟踪】KryoException: java.io.IOException: No space left on device

时间:2016-04-15 12:07:16      阅读:228      评论:0      收藏:0      [点我收藏+]

标签:

今天在对LDA进行不同参数训练模型,记录其avglogLikelihood和logPerplexity,以便判断模型训练是否收敛时,产生了一个令人极度崩溃的事儿:程序在辛辛苦苦跑了7.3h后...挂了!证据如下:

技术分享

早上一来看这张图,好像跑完了,然后点进去看...然后就没有然后了

技术分享


每次迭代都需要9min左右,迭代了近50次跟我说挂了,确实挺让人奔溃的。


先说说我的配置以及LDA参数吧

5 * 40cores cpu 

5* 500g memory

参数:

技术分享


没办法,既然都崩溃了,跟进去找问题呗

技术分享


磁盘没空间了!这是什么鬼...于是常规的,先从网上找找,看看有没有人有类似的问题,结果还真让我发现两个

Spark:java.io.IOException: No space left on device

spark参数配置调优

发现第一个的回答中比较有用的是这个:

技术分享


同时,结合第二个中的解释

技术分享


基本上定位到应该是spark.local.dir目录用来存放shuffle产生的临时文件的空间不够用了。好吧,那看看自己的配置咯

技术分享


这下子好玩儿了!配置的local目录空间剩余杠杠的,机器上还剩大概600G(关键是总共5台啊!!!总共至少3T空间),跟我说No space left on device确定不是在逗我的?好吧,看来应该不是shuffle文件存储的空间不足了。

怎么办?问题总不能摆着儿吧,没办法,那就跟进去spark的UI慢慢研究咯

技术分享


等等!还真发现点儿规律,为什么报错的都是同一台机器!然后想到之前的一个任务也有fails,赶紧打开看看,验证一下

技术分享

技术分享

技术分享


看来果然是这样了!现在规律是发现了,那为什么会这样啊?刚才看到的bigdata04上的磁盘空间是完全够用的啊,真是奇了怪了!

等等!突然想起来,我好像是在这台机启动的任务

技术分享


也就是说,bigdata04是我的driver。

原来如此,既然是driver,那么跟存储有关的就只有提交任务时配置的参数--driver-memory 50g这个了。

技术分享


而且,好像刚才查看执行过程的时候,shuffle write也是很大的

技术分享

那就试着把--driver-memory这个参数调大点吧。

先记录到这里,等结果出来后再看看,如果没问题了再修改本文总结一下!


【问题跟踪】KryoException: java.io.IOException: No space left on device

标签:

原文地址:http://blog.csdn.net/yhao2014/article/details/51159189

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!