记录一次排查解决服务器卡死的过程

· 浏览次数 : 36

小编点评

本文主要讨论了一个阿里云服务器在处理数据时出现的频繁卡死问题，并最终通过分析定位到内存泄漏的原因。文章首先描述了服务器在出现问题时的现象和影响，然后逐步分析了问题的原因和解决方案。 1. **问题描述**： - 服务器在处理数据时频繁卡死。 - 观察到服务器在某个时间点无法登录，之后通过阿里云控制台重启服务器恢复正常。 - 分析启动脚本发现存在问题，但未找到明显错误。 2. **问题定位**： - 通过分析日志和堆栈信息，发现服务器内存泄漏。 - 使用MAT工具分析内存泄漏的原因，发现一个对象占用内存过大。 - 在对象的属性中找到一个静态成员变量map，其键值对数量巨大，推测存在内存泄漏。 3. **解决方案**： - 定时清理内存，避免内存泄漏问题扩大。 - 在启动脚本中加入参数控制本地内存使用，以减少内存泄漏的影响。 - 对代码进行优化，减少内存泄漏的可能性。总的来说，文章通过一步步排查和分析，成功找到了服务器内存泄漏的问题所在，并提出了相应的解决方案。同时，文章也提醒大家在遇到类似问题时要冷静分析，逐步定位问题，并采取合适的措施解决问题。

正文

前言

自己个人兴趣爱好，线上有一个阿里云服务器，处理数据用的，会频繁IO和分析数据。隔一段时间就会卡死（大概2个月），重启就OK。本来没当一回事，直到后来影响到赚取money了才引起重视。服务的启动脚本如下：

nohup java  -Xms512m  -Xmx1024m  -jar xxx.jar  &

当然这个脚本是有很多问题的，毕竟自己的服务器，追求的就是一个简单粗暴，怎么简单怎么来，没有那么多顾虑。但是自己埋的坑、迟早有一天哭着也要填完！

现象

突然有一天，登录服务器发现登录不上去，xshell 类似下面的提示。看起来是连接上了，但是进不去，这种情况一般要么是网卡、要么是服务器卡，我这显然是后者。通过阿里云控制台都进不去，一般这种情况等一段时间，消耗内存的应用会被杀掉，然后就能进去了。当然我这种急性子自然是选择去阿里云后台直接强制重启服务器。

服务器是能进去了，但是没有任何日志可供查询，没有堆栈信息，查看日志并没有发现oom错误（这里只能一句卧槽了）。于是修改启动脚本如下，以便下一次有类似情况可以有痕迹可寻：

nohup java  -Xms512m  -Xmx1024m  -Xlog:gc*:file=gc.log:time,uptime,level,tags -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/path/to/dumps -jar  xx.jar &

内存的原因，自然是要关注内存。一般我们需要关注一下垃圾回收器的行为以及堆内存使用情况。-XX:+HeapDumpOnOutOfMemoryError 以及-XX:HeapDumpPath 就是指定了当发生堆内存溢出的时候，转储当时的内存文件供我们后续分析（其实观察到内存开销持续上涨，回收效果不明显，就可以用这个命令导来导出堆内存文件分析:jamp -dump:live,format=b,file=xxx.hprof）。终于是在某一天（2个月后），发现了OOM错误，如下所示。

这就很离谱了，上次我卡死直接强制重启了，nohup.out文件并没有看到OOM错误的日志，但是这次为啥出现OOM错误日志了。这个问题现在我都没搞清楚为什么，服务器是2G内存，启动脚本堆最大1G内存，完全够用哇，讲道理不可能消耗完服务器内存。难道代码还有IO等内存泄漏？先不管了，先解决眼前的问题。既然是OOM错误，自然是要看是哪个实例占用了内存，使用MAT分析一下。（PS: JHAT 无异于大海捞针，因为类太多，他又不能把较大内存的排序，然后OQL又不能支持通配符，就无解，还是MAT香）。MAT分析报告如下：

可以看到有一个大对象占用内存692.4M ，这基本可以锁定这个问题就出现在这个对象上了。然后再查其中有一个属性，是一个静态成员变量map，如图所示有6291456个key。结合代码看该变量会被业务数据依据具体情况，填充进数据，但是并没有释放的地方，so 这就是问题所在了。

解决

我这里就是简单粗暴的定时清理一下内存，如下所示。

因为要很久才出现OOM，所以这个代码能用，但却是不优雅的。奈何自己的项目随便弄的，写成了屎山代码，不太好改，毕竟有一句话说的好： If your code runs in some inexplicable way, don't touch it anymore。否则将会是面对如下所示的残酷：

后话

文中有提到设置了-Xmx1024m 但是实际导致服务器2G内存卡死，可能存在的内存泄漏问题，先在启动脚本加上参数-XX:MaxDirectMemorySize=256M，控制一下本地内存，后续如果再次出现OOM 了，在继续^-。

nohup java  -Xms512m  -Xmx1024m  -Xlog:gc*:file=gc.log:time,uptime,level,tags -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/path/to/dumps -XX:MaxDirectMemorySize=256M -jar  xx.jar &

大家不偷懒的话，gc日志参数，堆内存导出，这些最好都设置好！