记录一则exachk进程占用大量CPU资源

记录,一则,exachk,进程,占用,大量,cpu,资源 · 浏览次数 : 64

小编点评

**问题分析：** * Exadata 系统中，exachk 进程占用了大量 CPU 资源。 * 巡检之前升级了 AHF，然后进行标准的 exachk 巡检。 * 现象：目前机器整体CPU使用率是 20%，但被使用到的具体 CPU core 基本都是满负荷，都是这些exachk 进程。 **解决方案：** 1. **关闭 TFA 自动启动：** - 使用 `systemctl stop tfa` 命令关闭 TFA 服务。 - 确保 `/etc/init.d/init.tfa` 文件中的 `tfa` 服务被关闭。 2. **正常停止 exachk 进程：** - 使用 `systemctl restart tfa` 命令尝试正常启动和停止 `tfa` 服务。 - 如果进程正常启动，可以使用 `tfactl stop exachk` 命令强制停止 `exachk` 进程。 3. **强行杀死异常进程：** - 无法保证正常停止后，所有 `exachk` 进程都立即停止。 - 可以使用 `pgrep -f exachk` 命令搜索进程 ID，然后使用 `kill -9 xxxxxx` 命令强行杀死它们。 - 确保 `kill` 命令的 `xxxxxx` 是正确的值。 **总结：** * 针对异常的进程可以使用 `kill` 命令强行杀死，但需要反复确保它们完全不会影响正常生产运行。 * 停止 `exachk` 进程后，应确保 `tfa` 服务已正确启动。

正文

有Exadata客户在进行exachk巡检之后反馈，发现系统中，exachk进程占用了大量CPU资源。
了解之前的变更，只是巡检之前升级了AHF，然后进行标准的exachk巡检。

现象：

目前机器整体CPU使用率是20%+，但被使用到的具体CPU core基本都是满负荷，都是这些exachk进程，这些进程初步判断的确是有异常，正常不会运行这么久都不结束。

解决：

尝试方案1:

首先，依据文档 How to disable TFA autostart on Exadata (Doc ID 2516169.1)

# /etc/init.d/init.tfa shutdown
# /etc/init.d/init.tfa disable
复制

关闭了tfa服务之后，发现进程依然存在。

尝试方案2:

可以尝试正常停止，先启动tfa，使用tfactl尝试将exachk进程停止：

/etc/init.d/init.tfa enable
/etc/init.d/init.tfa start
tfactl stop exachk
复制

验证进程是否停止成功：

ps -ef|grep exachk
复制

发现进程依然存在。

尝试方案3:

没办法，只能采用强行kill的方式，反复确认需要kill的进程PID信息，均是exachk，然后进行kill：

kill -9 xxxxxx
kill -9 xxxxxx
...
复制

这样就完成 kill 所有异常exachk进程，CPU使用率也随之恢复正常。

目前tfa服务也保持启动状态，为了后续再观察，如有问题复现再具体分析。

总结：

针对异常的进程可以kill，但是需反复确保要操作kill的进程完全不会影响到正常生产运行。

记录一则exachk进程占用大量CPU资源

小编点评

正文

尝试方案1:

尝试方案2:

尝试方案3:

总结：

与记录一则exachk进程占用大量CPU资源相似的内容：

记录一则exachk进程占用大量CPU资源

[转帖]记录一则enq: TX - row lock contention的分析过程

[转帖]记录一则enq: TX - row lock contention的分析过程

记录一则ADG备库报错ORA-29771的案例

记录一次在欧拉(openEuler22.03LTS-SP4)系统下安装(踩坑)Freeswitch1.10.11的全过程

记录一次排查解决服务器卡死的过程

记录一次WhatTheFuck经历

记一次ThreadLocal中的用户信息混乱问题

工作疑难问题解决4例

记录一次安装PIDtoolBox报缺少jvm.dll问题。

# 热门排行