标签:java oom
这几天和同事一起分析的一个线上的java应用。
线上查询平台应用,主要原理是用户传入sql,经由查询平台通过jdbc连接hive做查询操作。
主要架构:user---->tengine---->java--->haproxy---->hiveserver2
线上用户反映查询异常,分析tengine的访问日志,发现部分响应的http code是499(和之前处理的resin accesslog问题一样),怀疑是后端不响应,导致用户访问时立即抛出异常,分析nginx的error log,可以看到有部分connection reset的记录,同时结合telnet测试,发现后端有confused的情况,即nginx到后端java应用存在问题。
对于java应用来说,一般分析另个部分,线程和堆栈。
通过jstat查看堆栈信息,发现old区使用率为100%,怀疑程序出现内存泄露,手动通过jmap -histo:live xxx 触发full gc,发现old区不能被正常gc掉。
jstat信息:
jstat -gcutil 1306 1000 1000 S0 S1 E O P YGC YGCT FGC FGCT GCT 0.00 100.00 100.00 100.00 27.34 109 7.757 1986 3495.015 3502.772 0.00 100.00 100.00 100.00 27.34 109 7.757 1987 3497.272 3505.029 0.00 100.00 100.00 100.00 27.34 109 7.757 1987 3497.272 3505.029 0.00 100.00 100.00 100.00 27.34 109 7.757 1987 3497.272 3505.029 0.00 100.00 100.00 100.00 27.34 109 7.757 1988 3499.993 3507.750 0.00 100.00 100.00 100.00 27.34 109 7.757 1988 3499.993 3507.750
使用如下命令打印线程堆栈,并使用heap分析工具进行分析:
jmap -F -dump:format=b,file=dataview0805.prof 13036
存在泄露点,发现是数组导致:
分析数组的内容,与查询返回的结构关联:
while(rs.next()){ linkedMap = new MyMap<String,String>();//LinkedHashMap for(int i=1;i<=columnCount;i++){ columnName = rsData.getColumnName(i); if(columnName.contains(".")){ columnName=columnName.split("\\.")[1]; } rsString=rs.getString(i); if(rsString==null){ rsString="(NULL)"; } linkedMap.put(columnName+"-"+i,rsString); } list.add((MyMap<String, String>) linkedMap); } }
该段代码用来对查询结果的每个字段的每个数据进行特殊处理,如果有1万条记录,每条记录100个字段的话,linkedMap就会产生100W的数据,进而OOM,解决方法就是在最后将linkedMap清空即可(即linkedMap=null),另外,将对象的初始化过程防止while循环里面对应用的执行效也有一定的影响。
本文出自 “菜光光的博客” 博客,请务必保留此出处http://caiguangguang.blog.51cto.com/1652935/1548085
标签:java oom
原文地址:http://caiguangguang.blog.51cto.com/1652935/1548085