https://www.bookstack.cn/read/TiDB-4.0/tune-operating-system.md
本文档仅用于描述如何优化 CentOS 7 的各个子系统。
注意:
- CentOS 7 操作系统的默认配置适用于中等负载下运行的大多数服务。调整特定子系统的性能可能会对其他子系统产生负面影响。因此在调整系统之前,请备份所有用户数据和配置信息;
- 请在测试环境下对所有修改做好充分测试后,再应用到生产环境中。
系统调优需要根据系统性能分析的结果做指导,因此本文先列出常用的性能分析方法。
此分析法由《性能之巅》的作者 Brendan Gregg 及其所在的 Netflix 性能工程团队公布。所用到的工具均可从发行版的官方源获取,通过分析以下清单中的输出,可定位大部分常见的性能问题。
具体用法可查询相应 man
手册。
Perf 是 Linux 内核提供的一个重要的性能分析工具,它涵盖硬件级别(CPU/PMU 和性能监视单元)功能和软件功能(软件计数器和跟踪点)。详细用法请参考 perf Examples。
CentOS 从 7.6 版本起,内核已实现对 bpf 的支持,因此可根据上述清单的结果,选取适当的工具进行深入分析。相比 perf/ftrace,bpf 提供了可编程能力和更小的性能开销。相比 kprobe,bpf 提供了更高的安全性,更适合在生产环境上使用。关于 BCC 工具集的使用请参考 BPF Compiler Collection (BCC)。
性能调优将根据内核子系统进行分类描述。
cpufreq 是一个动态调整 CPU 频率的模块,可支持五种模式。为保证服务性能应选用 performance 模式,将 CPU 频率固定工作在其支持的最高运行频率上,不进行动态调节,操作命令为 cpupower frequency-set --governor performance
。
irqbalance
服务实现。be2iscsi
驱动的设备,以及 NVMe 设置;smp_affinity
掩码并设置对应的配置文件,具体请参考内核文档。为尽可能的避免跨 NUMA 访问内存,可以通过设置线程的 CPU 亲和性来实现 NUMA 绑核。对于普通程序,可使用 numactl
命令来绑定,具体用法请查询 man
手册。对于网卡中断,请参考下文网络章节。
对于数据库应用,不推荐使用 THP,因为数据库往往具有稀疏而不是连续的内存访问模式,且当高阶内存碎片化比较严重时,分配 THP 页面会出现较大的延迟。若开启针对 THP 的直接内存规整功能,也会出现系统 CPU 使用率激增的现象,因此建议关闭 THP。
echo never > /sys/kernel/mm/transparent_hugepage/enabled
echo never > /sys/kernel/mm/transparent_hugepage/defrag
dirty_ratio
百分比值。当脏的 page cache 总量达到系统内存总量的这一百分比后,系统将开始使用 pdflush 操作将脏的 page cache 写入磁盘。默认值为 20%,通常不需调整。对于高性能 SSD,比如 NVMe 设备来说,降低其值有利于提高内存回收时的效率。dirty_background_ratio
百分比值。当脏的 page cache 总量达到系统内存总量的这一百分比后,系统开始在后台将脏的 page cache 写入磁盘。默认值为 10%,通常不需调整。对于高性能 SSD,比如 NVMe 设备来说,设置较低的值有利于提高内存回收时的效率。内核 I/O 栈链路较长,包含了文件系统层、块设备层和驱动层。
I/O 调度程序确定 I/O 操作何时在存储设备上运行以及持续多长时间。也称为 I/O 升降机。对于 SSD 设备,宜设置为 noop。
echo noop > /sys/block/${SSD_DEV_NAME}/queue/scheduler
块是文件系统的工作单元。块大小决定了单个块中可以存储多少数据,因此决定了一次写入或读取的最小数据量。
默认块大小适用于大多数使用情况。但是,如果块大小(或多个块的大小)与通常一次读取或写入的数据量相同或稍大,则文件系统将性能更好,数据存储效率更高。小文件仍将使用整个块。文件可以分布在多个块中,但这会增加运行时开销。
使用 mkfs 命令格式化设备时,将块大小指定为文件系统选项的一部分。指定块大小的参数随文件系统的不同而不同。有关详细信息,请查询对应文件系统的 mkfs
手册页,比如 man mkfs.ext4
。
noatime
读取文件时,将禁用对元数据的更新。它还启用了 nodiratime 行为,该行为会在读取目录时禁用对元数据的更新。
网络子系统由具有敏感连接的许多不同部分组成。因此,CentOS 7 网络子系统旨在为大多数工作负载提供最佳性能,并自动优化其性能。因此,通常无需手动调整网络性能。
网络问题通常由硬件或相关设施出现问题导致的,因此在调优协议栈前,请先排除硬件问题。
尽管网络堆栈在很大程度上是自我优化的。但是在网络数据包处理过程中,以下方面可能会成为瓶颈并降低性能:
ethtool -S ${NIC_DEV_NAME}
命令观察 drops 字段。当出现丢包现象时,主要考虑是硬/软中断的处理速度跟不上网卡接收速度。若接收缓存小于最大限制时,也可尝试增加 RX 缓存来防止丢包。查询命令为:ethtool -g ${NIC_DEV_NAME}
,修改命令为 ethtool -G ${NIC_DEV_NAME}
。/proc/interrrputs
网卡中断,如果出现了中断不均衡的情况,请参考处理器调优章节。若不支持 RSS 或 RSS 数量远小于物理 CPU 核数,则可配置 Receive Packet Steering(RPS,可以看作 RSS 的软件实现),及 RPS 的扩展 Receive Flow Steering (RFS)。具体设置请参考内核文档。/proc/net/softnet\_stat
监控。如果除第三列的其他列的数值在增长,则应适度调大 net.core.netdev\_budget
或 net.core.dev\_weight
值,使 softirq 可以获得更多的 CPU 时间。除此之外,也需要检查 CPU 使用情况,确定哪些任务在频繁占用 CPU,能否优化。ss -nmp
的 Recv-q
列,若队列已满,则应考虑增大应用程序套接字的缓存大小或使用自动调整缓存的方式。除此之外,也要考虑能否优化应用层的架构,降低读取套接字的间隔。ethtool -a ${NIC_DEV_NAME}
命令检查是否支持/使能,并通过 ethtool -A ${NIC_DEV_NAME}
命令开启。对于交换机,请查询其手册。ethtool -c ${NIC_DEV_NAME}
命令检查,ethtool -C ${NIC_DEV_NAME}
命令开启。自适应模式使网卡可以自动调节中断合并。在自适应模式下,驱动程序将检查流量模式和内核接收模式,并实时评估合并设置,以防止数据包丢失。不同品牌的网卡具有不同的功能和默认配置,具体请参考网卡手册。netdev\_max\_backlog
。观察 /proc/net/softnet\_stat
第二列,当某行的第二列持续增加,则意味着 CPU [行-1] 队列已满,数据包被丢失,可通过持续加倍 net.core.netdev\_max\_backlog
值来解决。ip -s link
的输出中观察到 TX errors
值时,可尝试加倍该数据包数量:ip link set dev ${NIC_DEV_NAME} txqueuelen 2000
。