[转帖]Linux命令拾遗-%iowait指标代表了什么?

linux,命令,拾遗,iowait,指标,代表,什么 · 浏览次数 : 0

小编点评

**iowait 指标** iowait 指标是一个在 Linux 系统中用于监控 CPU 使用率的指标,它表示 CPU 在 I/O 操作中等待完成的时长。 **iowait 的意义:** * 当 CPU 处于 I/O 操作时,iowait 指标会增加。 * I/O 操作包括所有与 I/O 设备相关的操作,例如读、写、连接和关闭文件。 * 当 iowait 指标高时,表示 I/O 密集对 CPU 使用率较高,可能导致系统性能下降。 **iowait 的用法:** 可以使用 `man` 命令查看 `iowait` 指标的详细定义: ``` $ man iowait ``` **iowait 与 other 指标的关系:** iowait 指标与其他指标一起使用来了解 CPU 使用率。其他常用指标包括: * `%iowait`:表示 CPU 在 I/O 操作中等待的百分比时间。 * `%cpuidle`:表示 CPU 在空闲状态中的百分比时间。 * `%user`:表示用户模式 CPU 使用时间的百分比时间。 * `%system`:表示系统模式 CPU 使用时间的百分比时间。 **iowait 高的意义:** 当 `iowait` 指标很高时,表示 I/O 密集对 CPU 使用率很高,可能导致系统性能下降。这可能是由于以下原因: * I/O 密集操作可能阻塞 CPU,使它无法执行其他操作。 * I/O 密集操作可能在 CPU 核心之间传递大量数据,导致负载均衡问题。 * I/O 密集操作可能在 CPU 等待 I/O 设备的响应,从而导致性能下降。 **注意:** iowait 指标仅表示 I/O 操作的等待时间,并不能准确反映 CPU 使用率的整体趋势。

正文

https://www.cnblogs.com/codelogs/p/16060759.html

 

简介#

一直以来,我都知道top、vmstat、mpstat中有一个叫wa(%iowait)的cpu指标,但对它表示的具体含义又不是很清楚,故专门去网上学习了一下。

iowait在man中的介绍#

man文档是学习命令的第一手资料,先来看看man文档中的介绍,如下:

$ man top
wa, IO-wait : time waiting for I/O completion.

$ man vmstat
wa: Time spent waiting for IO.  Prior to Linux 2.5.41, included in idle.

$ man mpstat
%iowait
    Show the percentage of time that the CPU or CPUs were idle during which the system had an outstanding disk I/O request.

$ man iostat
%iowait
    Show the percentage of time that the CPU or CPUs were idle during which the system had an outstanding disk I/O request.

$ man sar
 %iowait
    Percentage of time that the CPU or CPUs were idle during which the system had an outstanding disk I/O request.

翻译过来就是CPU空闲且有正在进行的磁盘IO的情况下所占的时间比例,理解起来非常模糊,只能大概了解到这个指标好像和磁盘IO有关。

iowait真相#

在man中查不到,那就只能去网上找找了,看有没有大佬在网上分享过这方面知识,在经过好一段时间的baidu、google,终于发现了如下两篇文章:

可以说这两篇文章介绍得非常清楚了,我用白话概括一下内核处理过程,如下:

  1. 我们知道操作系统给每个CPU分配了一个运行队列rq,用于存放可运行的线程task_stuct,调度器每次都是从此队列中取线程执行,若队列为空则CPU执行内核空闲线程的代码。
  2. 当线程执行io操作时,需要将当前任务切换出去,会先将当前线程task_stuct.in_iowait设置为1,线程状态设置为TASK_UNINTERRUPTIBLE(D状态),并将运行队列上rq.nr_iowait加1,而io完成后task_stuct.in_iowait还原为0,rq.nr_iowait减1,具体见内核io_schedule_timeout函数,可见rq.nr_iowait代表当前CPU上等待io操作的线程数量。
  3. 当CPU执行内核空闲代码时,会判断rq.nr_iowait,若大于0则将空闲时间计算在iowait上,否则计算在idle上,具体见内核account_idle_time函数。

总结一下idle与iowait区别,如下:

  1. iowait时间实际上就是CPU空闲时间,Linux上空闲时间有两类,一类是普通的idle,另一类是iowait。
  2. 普通idle与iowait区别是,iowait是CPU空闲时,有任务正在做磁盘io操作,而idle则没有。

iowait高代表io压力大?#

iowait指标是从CPU角度看io,但毕竟不是从io层面看的,所以iowait高也不一定代表有问题,如下:

  1. 如果程序迁移到性能更好的CPU上,由于CPU运行代码变快,会导致空闲时间变多,而iowait时间实际上就是空闲时间,所以有时会发现,性能更好的机器上iowait反而更高了。
  2. 比如有这样两个程序,程序A在10s内每1s都做1次io操作,假设io操作需要1s,那么10s内的iowait是100%,而程序的IOPS是1。另一程序B在10s的前1s内并发执行了10次io操作,那么iowait是10%,而程序的峰值IOPS是10。虽然例子比较极端,但这里很明显程序B的IOPS峰值更高,但它的iowait却更低。

虽说iowait并不能准确反映io情况,但它也不是完全没用的,在大多数情况下,iowait高确实代表了io压力大,并且它至少提示了你应该进一步检查一下io情况,这方面iostat、iotop、blktrace等可以做到。

另外,从上面的iowait原理中你会发现,处在iowait的线程,其必定是D状态的(TASK_UNINTERRUPTIBLE),这在之前也提到过,D状态是会影响系统负载的,详细可查看 Linux命令拾遗-理解系统负载

命令实践#

stress -d命令可以模拟做大量的磁盘操作,并使用taskset将stress绑定到3号核上运行,如下:

$ taskset --cpu-list 3 stress -d 1 --hdd-bytes 100G
stress: info: [9160] dispatching hogs: 0 cpu, 0 io, 0 vm, 1 hdd

然后使用mpstat -P ALL 1观察iowait情况,发现3号核iowait高达88%,如下:
mpstat_iowait

然后新开一个shell窗口,使用stress -c命令模拟大量的CPU运算,也使用taskset绑定到3号核上运行,如下:

$ taskset --cpu-list 3 stress -c 1
stress: info: [9178] dispatching hogs: 1 cpu, 0 io, 0 vm, 0 hdd

再次使用mpstat -P ALL 1观察iowait情况,发现3号核iowait变成了0%,而%usr几乎满载,如下:
mpstat_iowait_0

如果你理解了上面的内容,就能理解这个示例了。
第一次因为只有stress -d在做io操作,所以CPU基本都是空闲的,而空闲期间基本都是有在做io的任务存在的,所以iowait高。
第二次因为加入stress -c使得CPU不再空闲,而iowait实际上就是空闲时间,所以iowait自然就变成0了。

当然,如果你有兴趣,还可以试下这两个命令,它们可以将%sys%nice变成100%,如下:

# 使得%sys满载
$ taskset --cpu-list 3 dd if=/dev/zero of=/dev/null bs=1M count=1000000

# 使得%nice满载
$ taskset --cpu-list 3 nice -n 19 stress -c 1

本系列文章索引
Linux命令拾遗-入门篇
Linux命令拾遗-文本处理篇
Linux命令拾遗-软件资源观测
Linux命令拾遗-硬件资源观测
Linux命令拾遗-剖析工具
Linux命令拾遗-动态追踪工具
Linux命令拾遗-理解系统负载
Linux命令拾遗-top中的%nice是啥
Linux命令拾遗-网络抓包工具
Linux命令拾遗-查看系统信息
Linux命令拾遗-常用的辅助开发类命令

往期内容#

字符编码解惑
hex,base64,urlencode编码方案对比
mysql的timestamp会存在时区问题?
真正理解可重复读事务隔离级别
不容易自己琢磨出来的正则表达式用法

与[转帖]Linux命令拾遗-%iowait指标代表了什么?相似的内容:

[转帖]Linux命令拾遗-%iowait指标代表了什么?

https://www.cnblogs.com/codelogs/p/16060759.html 简介# 一直以来,我都知道top、vmstat、mpstat中有一个叫wa(%iowait)的cpu指标,但对它表示的具体含义又不是很清楚,故专门去网上学习了一下。 iowait在man中的介绍# ma

[转帖] Linux命令拾遗-使用blktrace分析io情况

https://www.cnblogs.com/codelogs/p/16060775.html 简介# 一般来说,想检查磁盘I/O情况,可以使用iostat、iotop、sar等,但这些命令只能做一个整体的了解,没法具体到某一次io的详细情况,而今天介绍的blktrace就可以深入到Linux I

[转帖] Linux命令拾遗-使用blktrace分析io情况

https://www.cnblogs.com/codelogs/p/16060775.html 简介# 一般来说,想检查磁盘I/O情况,可以使用iostat、iotop、sar等,但这些命令只能做一个整体的了解,没法具体到某一次io的详细情况,而今天介绍的blktrace就可以深入到Linux I

[转帖] Linux命令拾遗-查看系统信息

https://www.cnblogs.com/codelogs/p/16060714.html 简介# 作为一名程序员,有时需要关注自己的进程运行在什么样的软硬件环境里,比如几核cpu、固态硬盘还是机械硬盘、内核版本多少、Centos还是Ubuntu? 查看硬件信息# Linux里面提供了一系列命

[转帖] Linux命令拾遗-网络抓包工具

https://www.cnblogs.com/codelogs/p/16060684.html 简介# Linux中有很多抓包工具,如ngrep、tcpdump与tshark等,它们有很多用法与使用场景,下面我将结合例子讲解各工具的用法以及它们的使用场景。 本系列文章索引Linux命令拾遗-入门篇

[转帖]Linux命令拾遗-top中的%nice是啥

https://www.cnblogs.com/codelogs/p/16060663.html 简介# 这是Linux命令拾遗系列的第八篇,本篇主要介绍top命令中nice%这个指标的含义以及进程优先级相关内容。 本系列文章索引Linux命令拾遗-入门篇Linux命令拾遗-文本处理篇Linux命令

[转帖] Linux命令拾遗-理解系统负载

https://www.cnblogs.com/codelogs/p/16060498.html 简介# 这是Linux命令拾遗系列的第七篇,本篇主要介绍Linux中负载的概念与问题诊断方法。 本系列文章索引Linux命令拾遗-入门篇Linux命令拾遗-文本处理篇Linux命令拾遗-软件资源观测Li

[转帖] Linux命令拾遗-入门篇

https://www.cnblogs.com/codelogs/p/16060394.html 原创:打码日记(微信公众号ID:codelogs),欢迎分享,转载请保留出处。 简介# 之前出过很多和Linux命令有关的文章,但都比较零散,故打算出一个Linux系列文章,一步一步带出Linux中纷繁

[转帖] Linux命令拾遗-文本处理篇

https://www.cnblogs.com/codelogs/p/16060413.html 简介# 这是Linux命令拾遗系列的第二篇,本篇主要介绍Linux中与文本处理相关的命令,如xargs、grep、sed、awk等。 本系列文章索引Linux命令拾遗-入门篇 常用文本相关命令# cat

[转帖]Linux命令拾遗-软件资源观测

原创:打码日记(微信公众号ID:codelogs),欢迎分享,转载请保留出处。 简介# 这是Linux命令拾遗系列的第三篇,本篇主要介绍Linux中观测软件资源的命令,如ps、netstat、lsof,以及查看进程信息的宝库/proc目录。 本系列文章索引Linux命令拾遗-入门篇Linux命令拾遗