一次OOM事故的学习过程

一次,oom,事故,学习,过程 · 浏览次数 : 216

小编点评

事故发生过程中,dump文件大小为42G。由于机器内存只有96G 16vCPU mat使用56G内存作为堆区分析dump文件分析42G的dump文件,分析结果堆区为27.5G,最大的一个现场使用23.3G的内存。 分析方法: 1. **分析堆区**:分析堆区分析42G的dump文件,发现最大的一个内存对象占用23.3G的内存。分析过程需要按照retained heap 的大小进行排序,打开最大占用内存的线程信息就可以。 2. **分析 dominator_tree**:分析 dominator_tree 里面会有响应的堆区内存的详细信息,需要按照retained heap 的大小进行排序。 3. **分析 SQL**:针对分析出来的业务功能去查看业务逻辑以及SQL等内容。 4. **分析 OOM 信息**:分析 OOM 信息,包括分析时间、OOM 的最大占用内存、与 CPU 关系、与内存大小和磁盘IO性能关系。 **优化建议:** 1. **调整 JVM 的堆区和GC类型的设置**:优化 JVM 的堆区和GC类型的设置,例如设置堆区大小、GC 算法、GC阈值等。 2. **关闭swap**:关闭swap,避免swap出现时磁盘读写降低系统性能。 3. **关闭OOM**:如果出现 OOM,可以尝试关闭一些非核心功能,例如日志记录、缓存等。 4. **提高服务器性能**:提高服务器性能,以降低 OOM 的发生频率和次数。 5. **使用高配置的机器**:如果服务器有高配置的机器,可以考虑使用这些机器进行分析。 **其他提示:** 1. **使用工具分析dump**:如果工具无法分析dump文件,可以尝试使用其他工具进行分析。 2. **分析大数据**:如果需要分析大数据,可以使用其他技术,例如 MapReduce、Spark 等框架。

正文


事故过程

周二下午得到消息, 希望帮忙分析dump文件.
告知dump大小为42G大小. 一般机器没这么大的内存进行处理.
建议现场上传到百度云盘, 然后我这边进行下载.
时间进度为:
11.57创建的dump
现场打包压缩, 拉取上传百度云盘. 速度大概只有500KB/S.
压缩后文件6G, 时间大约是 4小时左右上传完.
我这边接收到百度云盘已经晚上七点半.
下载耗时大约1h+
九点开始解析, 九点五十五分出结果.
分析情况:
机器内存 96G 16vCPU
mat使用56G内存作为堆区分析dump文件
分析42G的dump文件, 分析结果堆区为27.5G,最大的一个现场使用23.3G的内存.
分析耗时 50min. 

OOM的一些分析

dump解析完成只有
在overview 的截面处明显看到有一个巨大的内存对象.

左键最大的内存区域 打开java-basic 然后可以查看thread details
可以看到占用最大内存的区域是什么进程在使用.

因为mat 较为卡顿, 建议将整个堆栈区域复制出来进行分析. 
排除掉springboot java 以及类加载器相关的堆栈, 基本上就可以定位到是那一块业务代码
然后根据模块信息找到具体开发, 然后进一步存在具体的业务功能. 
针对分析出来的业务功能去查看业务逻辑以及SQL等内容. 

OOM的一些分析

注意 OOM 分析的时间跟CPU有关系也跟内存大小和磁盘IO性能有关系.
他分析过程中会形成大量的文件, 作为索引, 如果出现了停止响应, 可以杀掉进程
重新打开待分析的dump文件. 速度会比较快. 

分析完threads 之后 可以分析一下 dominator_tree 里面会有响应的堆区内存的详细信息.

需要按照retained heap 的大小进行排序, 打开最大占用内存的线程信息就可以.
一直选中占用内存最大对想进行展开. 
我这次例子中 hashmap的对象下面有多个hashmapnode 
简单统计了下:
没一个hashmap对象占用 3KB左右的内存空间. 一共先是有800多万个对象. 简单计算为:
3KB*8M=24GB. 很明显就可以将内存使用情况计算出来. 

然后继续打开每一个 hashmapnode 
发现第一个node的数值都是一样的, 将数据取出.放入第一步业务开发分析出来的SQL.
验证查询展示出来的数据结果集是否是八百万多. 

优化的方向

JVM的堆区和GC类型的设置还是需要关注
bean数量的差异,以及实例化对象多寡对内存的要求是不一样的. 
堆区,栈区,方法区,以及元数据区,还有直接内存还有系统自己剩余的内存
必须严格控制, 建议关闭swap, 避免swap出现时磁盘读写降低系统性能. 
建议服务器必须专用 堆区还是足够大比较好, 
足够大的堆区能够容忍部分垃圾代码, 和降低异常产生的频率和次数. 

不能因为OOM时dump文件过大就因噎废食. 可以通过改善工具的方式来解决问题
而不是为了好解决问题和不顾及问题发生的频率. 

分析优化

突然想这次OOM 可能不全通过dump分析应该也可以定位到. 
猜测一下分析方式: 
top -Hp threadid 查看占用CPU最多的进程信息
然后jstack -l 将堆栈信息打出
查看堆栈详细内容. 进行排查. 
理论上效率应该能快很多. 

另外建议现场有高配置的机器. 能够直接分析dump
没有人能够靠眼睛分析出来所有的问题. 必须有趁手的兵器才可以.

优化的方向

left join左连接产生的是笛卡尔积,
即两个10行的表左连接,首先是生成一个10*10行的表,
然后根据on后面的条件筛选符合条件的行。
消除笛卡尔乘积最根本的原因不是在于连接,而是在于唯一ID,
就像学号,一个学生就只有一个学号,学号就是这个学生的唯一标识码。
左连接只是以左边的表为基准,左边的ID和右边ID都是唯一,
就不会产生笛卡尔现象,如果右边有两个ID对应左边一个ID,
就算你是左连接,一样会产生1对多的现象。

SQL连接的简单学习

image


代码排查方面

简单数据的情况下不会有这样的问题.
但是如果连接的 关联条件查询出来的数据不唯一
会导致笛卡尔积,比两个表的数量都放大.  

业务SQL的严格准确很重要, 一定不要有笛卡尔积的结果出现.

本次例子里面两个子表 在同一个条件下 各有 2932条数据.
简单的笛卡尔积 就导致了接近 9m 的数据量. 
因为查询的结果集字段比较多, 导致一次查询就会使用 24GB的堆区
直接导致OOM

与一次OOM事故的学习过程相似的内容:

一次OOM事故的学习过程

事故过程 周二下午得到消息, 希望帮忙分析dump文件. 告知dump大小为42G大小. 一般机器没这么大的内存进行处理. 建议现场上传到百度云盘, 然后我这边进行下载. 时间进度为: 11.57创建的dump 现场打包压缩, 拉取上传百度云盘. 速度大概只有500KB/S. 压缩后文件6G, 时间

第一次线上 OOM 事故,竟和 where 1 = 1 有关

这篇文章,聊聊一个大家经常使用的编程模式 :Mybatis +「where 1 = 1 」。 笔者人生第一次重大的线上事故 ,就是和使用了类似的编程模式 相关,所以印象极其深刻。 这几天在调试一段业务代码时,又遇到类似的问题,所以笔者觉得非常要必要和大家絮叨絮叨。 1 OOM 事故 笔者曾服务一家电

分布式事务提交慢的一次总结和思考

分布式事务提交慢的一次总结和思考 背景 分布式事务未提交 是应用程序出现宕机异常的很重要的一原因. 应用宕机主要可以分为: 1. 内存泄露导致的OOM宕机. 表现在系统越来越慢, 应用的内存和CPU占用量越来越高. 最终达到无响应的状态, 此时数据库一般是正常的. 2. 分布式事务未提交导致的宕机,

[转帖]一次 Java 进程 OOM 的排查分析(glibc 篇)

https://juejin.cn/post/6854573220733911048 遇到了一个 glibc 导致的内存回收问题,查找原因和实验的的过程是比较有意思的,主要会涉及到下面这些: Linux 中典型的大量 64M 内存区域问题 glibc 的内存分配器 ptmalloc2 的底层原理 如

[转帖]一次 Java 进程 OOM 的排查分析(glibc 篇)

https://juejin.cn/post/6854573220733911048 遇到了一个 glibc 导致的内存回收问题,查找原因和实验的的过程是比较有意思的,主要会涉及到下面这些: Linux 中典型的大量 64M 内存区域问题 glibc 的内存分配器 ptmalloc2 的底层原理 如

[转帖]总结:记一次K8S容器OOM案例

一、背景 最近遇到个现象,hubble-api-open组件过段时间会内容占满,从而被K8S强制重启。 让我困惑的是,已经设置了-XX:MaxRAMPercentage=75.0,我觉得留有了一定的空间,不应该会占满,所以想深究下原因。 -XX:MaxRAMPercentage是设置JVM的最大堆内

[转帖]5分钟学会这种更高效的Redis数据删除方式

https://ost.51cto.com/posts/12513 简述 我们知道,Del命令能删除数据,除此之外,数据在Redis中,还会以哪种方式被删除呢?在Redis内存满一定会返回OOM错误?Key到达过期时间就立即删除?删除大Key会影响性能吗?下面,咱们一起探讨。 同步和异步删除 1.D

[转帖]【JVM】Java内存区域与OOM

引入 Java与C++之间有一堵由内存动态分配和垃圾收集技术所围成的“高墙”,墙外面的人想进去,墙里面的人却想出来。 Java虚拟机运行时数据区 如图所示 1.程序计数器(线程私有) 作用 记录当前线程所执行到的字节码的行号。字节码解释器工作的时候就是通过改变这个计数器的值来选取下一条需要执行的字节

[转帖]【JVM】Java内存区域与OOM

引入 Java与C++之间有一堵由内存动态分配和垃圾收集技术所围成的“高墙”,墙外面的人想进去,墙里面的人却想出来。 Java虚拟机运行时数据区 如图所示 1.程序计数器(线程私有) 作用 记录当前线程所执行到的字节码的行号。字节码解释器工作的时候就是通过改变这个计数器的值来选取下一条需要执行的字节

[转帖]jvm一般相关配置OutOfMemoryError关参数配置解释

一般运行java应用都会根据实际情况设置一些jvm相关运行参数 特别是有关内存和oom溢出等参数,方便后续问题定位和解决 如常用的以下配置 nohup java -Xms256m -Xmx24g -Xmn8g -verbose:gc -XX:+PrintGCDateStamps -XX:+Print