记录一则exachk进程占用大量CPU资源

记录,一则,exachk,进程,占用,大量,cpu,资源 · 浏览次数 : 64

小编点评

**问题分析:** * Exadata 系统中,exachk 进程占用了大量 CPU 资源。 * 巡检之前升级了 AHF,然后进行标准的 exachk 巡检。 * 现象:目前机器整体CPU使用率是 20%,但被使用到的具体 CPU core 基本都是满负荷,都是这些exachk 进程。 **解决方案:** 1. **关闭 TFA 自动启动:** - 使用 `systemctl stop tfa` 命令关闭 TFA 服务。 - 确保 `/etc/init.d/init.tfa` 文件中的 `tfa` 服务被关闭。 2. **正常停止 exachk 进程:** - 使用 `systemctl restart tfa` 命令尝试正常启动和停止 `tfa` 服务。 - 如果进程正常启动,可以使用 `tfactl stop exachk` 命令强制停止 `exachk` 进程。 3. **强行杀死异常进程:** - 无法保证正常停止后,所有 `exachk` 进程都立即停止。 - 可以使用 `pgrep -f exachk` 命令搜索进程 ID,然后使用 `kill -9 xxxxxx` 命令强行杀死它们。 - 确保 `kill` 命令的 `xxxxxx` 是正确的值。 **总结:** * 针对异常的进程可以使用 `kill` 命令强行杀死,但需要反复确保它们完全不会影响正常生产运行。 * 停止 `exachk` 进程后,应确保 `tfa` 服务已正确启动。

正文

有Exadata客户在进行exachk巡检之后反馈,发现系统中,exachk进程占用了大量CPU资源。
了解之前的变更,只是巡检之前升级了AHF,然后进行标准的exachk巡检。

现象:

目前机器整体CPU使用率是20%+,但被使用到的具体CPU core基本都是满负荷,都是这些exachk进程,这些进程初步判断的确是有异常,正常不会运行这么久都不结束。

解决:

尝试方案1:

首先,依据 文档 How to disable TFA autostart on Exadata (Doc ID 2516169.1)

# /etc/init.d/init.tfa shutdown
# /etc/init.d/init.tfa disable

关闭了tfa服务之后,发现进程依然存在。

尝试方案2:

可以尝试正常停止,先启动tfa,使用tfactl尝试将exachk进程停止:

/etc/init.d/init.tfa enable
/etc/init.d/init.tfa start
tfactl stop exachk

验证进程是否停止成功:

ps -ef|grep exachk

发现进程依然存在。

尝试方案3:

没办法,只能采用强行kill的方式,反复确认需要kill的进程PID信息,均是exachk,然后进行kill:

kill -9 xxxxxx
kill -9 xxxxxx
...

这样就完成 kill 所有异常exachk进程,CPU使用率也随之恢复正常。

目前tfa服务也保持启动状态,为了后续再观察,如有问题复现再具体分析。

总结:

针对异常的进程可以kill,但是需反复确保要操作kill的进程完全不会影响到正常生产运行。

与记录一则exachk进程占用大量CPU资源相似的内容:

记录一则exachk进程占用大量CPU资源

有Exadata客户在进行exachk巡检之后反馈,发现系统中,exachk进程占用了大量CPU资源。 了解之前的变更,只是巡检之前升级了AHF,然后进行标准的exachk巡检。 现象: 目前机器整体CPU使用率是20%+,但被使用到的具体CPU core基本都是满负荷,都是这些exachk进程,这

[转帖]记录一则enq: TX - row lock contention的分析过程

https://www.cnblogs.com/jyzhao/p/8628184.html 故障描述:与客户沟通,初步确认故障范围大概是在上午的8:30-10:30之间,反应故障现象是Tomcat的连接数满导致应用无法连接,数据库alert中无明显报错,需要协助排查原因。 1.导入包含故障时刻的数据

[转帖]记录一则enq: TX - row lock contention的分析过程

https://www.cnblogs.com/jyzhao/p/8628184.html 故障描述:与客户沟通,初步确认故障范围大概是在上午的8:30-10:30之间,反应故障现象是Tomcat的连接数满导致应用无法连接,数据库alert中无明显报错,需要协助排查原因。 1.导入包含故障时刻的数据

记录一则ADG备库报错ORA-29771的案例

有客户找到我这边咨询,说他们的一套核心ADG库在业务高峰期报错,因为业务做了读写分离,其备库也实际承担读业务,所以备库故障也会对业务产生影响。 这里也要提醒大家,做读写分离,如果读库出现故障的情况,要有切换到主库的应急方案考虑进去。 客户这里自己通过重启备库暂时解决,但担心故障再现,所以非常着急要分

记录一次在欧拉(openEuler22.03LTS-SP4)系统下安装(踩坑)Freeswitch1.10.11的全过程

目录前言安装环境1. 下载Freeswitch1.1 git clone 下载freeswitch库1.2 官网下载2. 开始安装前的工作2.1 安装编译时需要的环境【先安装这个!】2.2 configure前需要安装的库2.2.1. spandsp2.2.2. sofia-sip2.2.3. li

记录一次排查解决服务器卡死的过程

前言 自己个人兴趣爱好,线上有一个阿里云服务器,处理数据用的,会频繁IO和分析数据。隔一段时间就会卡死(大概2个月),重启就OK。本来没当一回事,直到后来影响到赚取money了才引起重视。服务的启动脚本如下: nohup java -Xms512m -Xmx1024m -jar xxx.jar &

记录一次WhatTheFuck经历

起因 很早之前就一直在维护一个git仓库,平时调研什么组件就会在里面新建一个springboot的工程用来编写示例代码。 最一开始使用的是SpringInitializr,后来网站更新之后,只能生成JDK17+的工程,WhatTheFuck?近期刚从8切换到11. 于是弃用并改用 StartAliy

记一次ThreadLocal中的用户信息混乱问题

记录一次开发中遇到的关于 ThreadLocal 问题,场景是数据库表中的操作人总是无缘无故的被更改,排查了几遍代码才发现是 ThreadLocal 没有及时清理导致的。

工作疑难问题解决4例

记录一下工作上疑难问题解决: 一,方便的页面监控 前几天早上,负责的kettle抽取数据表的任务又报错了,早上看手机有4个未接报警电话,一看是人员表,原来昨天报表系统有个大的查询一直未查询完成,导致truncate这个人员表,无法活动meta的锁,后续执行抽取和计算的都报错。为解决以前这个很偶发的大

记录一次安装PIDtoolBox报缺少jvm.dll问题。

背景: 1.在安装PIDtoolBox时,报 安装程序错误 安装程序无法启动JVM。 could not find file C:\Users\AdministratorAppData\Local\MathWorks\app installer cache\R2018b\ win64vinstall