[转帖]被误解的CPU利用率、超线程、动态调频 —— CPU 性能之迷 Part 1

误解,cpu,利用率,超线程,动态,调频,性能,part · 浏览次数 : 0


## Hyper-Threading and Turbo Boost Technologies **Measuring Hyper-Threading and Turbo Boost:** This blog post provides an in-depth understanding of hyper-threading and turbo boost technologies and how they impact CPU performance. * **Hyper-Threading:** * Enables multiple threads to run concurrently within a single CPU core. * Can significantly improve performance for applications that benefit from parallel processing. * However, managing hyper-threading can be challenging due to factors like cache locality and thread contention. * **Turbo Boost:** * Dynamically adjusts the CPU clock speed based on workload requirements. * This allows the CPU to maintain peak performance even when handling multi threads. * Turbo boost can be seen as a form of hyper-threading, but it's a separate technology with different mechanisms. **Cache Stuttering:** The blog post discusses the phenomenon of "cache thrashing," which occurs when the CPU cannot access data in the L1 cache due to a lack of available cache space. This can lead to a significant slowdown in performance. **Other relevant topics:** * **Performance at its CPU core:** This article showcases how CPU performance can vary depending on the workload. * **Hyper-Threaded Cache Coherent Raycasting:** This paper discusses a technique for improving cache coherence in hyper-threaded systems. * **Measuring Intel Hyper-Thread Overhead:** This blog post provides insights into measuring the overhead associated with hyper-threading. * **Understanding CPU usage in Linux:** This article explains how to monitor and analyze CPU usage in Linux systems. * **Utilization is virtually useless as a metric:** This paper challenges the traditional metric of CPU utilization and discusses its limitations. **Overall, this content provides a comprehensive understanding of hyper-threading and turbo boost technologies and their impact on CPU performance.**





性能测试、压力测试、业务系统性能容量评估。这 3 件事,可以认为是大部分程序员/软件开发从业者都需要面对的事。但,奇怪的是,很多人花了很多时间去做完成这些工作任务,却很少有人有计划地、系统地花时间去学习和研究相关的知识。

想一想,我们花了很多时间在学习各种光环中的 “新技术”:Cloud Native Service Mesh ML Go Rust ....。看公众号、买书、加入相关社区。最后成功成为一个技术表演者。

但对于我们必然要面对的问题:系统性能,跟其中 20 年以上的老技术知识,却只想在遇到问题时才搜索一下或 stackoverflow 一下。其原因大概为:

  1. 投入产出比低,能应付就好
  2. 出性能问题前,这东西不影响 KPI,做好了没人知道
  3. 出事了救火也很难成功,想当 Hero,最后多成炮灰
  4. 一不小心找出问题和优化方法,还因指出了原来的问题而和相关的人 “结下梁子”
  5. 现代软件开发团队清晰的人员职责划分一定程度上引起系统性能问题

其中可能最有争议和最需要解释的是第 5 点:

  1. 架构设计期:架构师,花在性能上的考量相当有限的。
  2. 开发期:程序员,功能的正确性认为是开发的主要职责,花在性能上的考量相当有限的。
  3. 性能测试期:性能QA,这是最后的保底一环了。发现问题后,回到 1.架构设计
    或 2.开发期上解决
  4. 上线后观察期:运维监控,这是运用可观察性

可见,性能问题大都在 3、4 考虑。1、2 考虑时,很容易被说成 过早优化
。而 1、2 其实是最考验架构师和程序员在性能上的功力、敏感度、职业素养、平衡(trade off)各方因素的时候;其中最关键的,应该是定位哪儿是系统的性能压力关键路径,并将主要和有限




  • 组织公司、组织分工时,我们有自顶向下的架构
  • 系统开发时,有 概要设计
  • 学习知识时,有 Mind Map(脑图)




自顶向下(Top-down)的工作流程、设计方法、问题解决方法,均水土不服。而自底向上(Bottom-up) 的方法,更好地解决了问题。



现代 CPU 特性

上面说的全是概念,这里开始,来接地气。我环境中的 CPU是:Intel® Xeon® Gold 6230N[1],它有一堆特性,其中我关心的是:

Total Cores 20
超线程:Total Threads 40
基础频率:Processor Base Frequency 2.30 GHz
最大超频频率:Max Turbo Frequency 3.50 GHz
动态调频:Enhanced Intel SpeedStep® Technology ✔️
动态调频:Intel® Speed Shift Technology/Hardware p-state(HWP) ✔️
动态睿(超)频:Intel® Turbo Boost Technology ✔️
动态睿(超)频:Intel® Turbo Boost Max Technology 3.0 ✔️
超线程:Intel® Hyper-Threading Technology ✔️
Cache 27.5 MB



首先,什么是 CPU 运行频率,可以看的Intel 的官方回答:What Is Clock Speed?[2]

Intel 有好几个技术会自动动态调整 CPU 运行频率[3]

  • Enhanced Intel SpeedStep Technology[4] (EIST) - Introduced with Pentium M, 2005
  • Turbo Boost Technology(TBT) - Introduced with Nehalem in 2008
    • Turbo Boost Technology 2.0 (TBT 2.0) - Introduced with Sandy Bridge in 2010
  • Speed Shift Technology[5] (SST) - Introduced with Skylake in 2015
  • Turbo Boost Max Technology[6] 3.0 (TBMT) - Introduced with Broadwell E in 2016
  • Thermal Velocity Boost[7] (TVB) - Introduced with Coffee Lake H in 2018
  • Speed Select Technology[8] (SST) - Introduced with Cascade Lake in 2019

P-State 阶梯频率

动态调频并不是 CVT 无级变速箱 🚗,是有级的 AT 变速箱 😏。Intel 给这些级别定义了一个术语:`P-State`[9]

Intel 对 P-State 的说明:[10]

CPU P-states represent voltage-frequency control states defined as performance states in the industry standard Advanced Configuration and Power Interface (ACPI) specification.

In voltage-frequency control, the voltage and clocks that drive circuits are increased or decreased in response to a workload. The operating system requests specific P-states based on the current workload. The processor may accept or reject the request and set the P-state based on its own state.

CPU P-states 表示在电源接口 (ACPI) 规范中定义为性能状态的电压频率控制状态。

在电压频率控制中,电路的电压和时钟响会因应工作负载而增加或减少。操作系统根据当前工作负载向 CPU 申请特定的 P-state。CPU 可以接受或拒绝请求,并根据自己的状态设置 P-state。

Linux 对 p-State 的说明:[11]

The majority of modern processors are capable of operating in a number of different clock frequency and voltage configurations, often referred to as Operating Performance Points
or P-states
(in ACPI terminology). As a rule, the higher the clock frequency and the higher the voltage, the more instructions can be retired by the CPU over a unit of time, but also the higher the clock frequency and the higher the voltage, the more energy is consumed over a unit of time (or the more power is drawn) by the CPU in the given P-state. Therefore there is a natural tradeoff between the CPU capacity (the number of instructions that can be executed over a unit of time) and the power drawn by the CPU.

可见 Linux 中 p-state
有一个别名:Operating Performance Points
是 Intel 的命名,Linux 需要支持众多厂商,需要一个抽象定义。


State *CPU clock (MHz)CPU clock (percentage)
P0 (High Frequency mode (HFM) )/Base Frequency 2801 100%
P1 2800 99%
p2 2700 96%
... ... ...
P13 1400 49%
P14 1300 46%
P15 (Low Frequency Mode (LFM)) 1200 42%

上面得知 CPU 频率有好几个P-State
档位,那么谁去换档?Intel 有两个可选:

  • 软件操作系统
    • Enhanced Intel SpeedStep Technology
  • CPU 硬件
    • Speed Shift Technology

Enhanced Intel SpeedStep  - 操作系统控制 CPU 频率

Enhanced Intel SpeedStep® Technology[12]

Enhanced Intel SpeedStep® Technology enables OS to control and select P-state. The following are the key features of Enhanced Intel SpeedStep® Technology:

  • Multiple frequencies and voltage points for optimal performance and power efficiency. These operating points are known as P-states.
  • Frequency selection is software controlled by writing to processor MSRs. The voltage is optimized based on the selected frequency and the number of active processors IA cores.

Speed Shift - CPU 自动控制频率

Speed Shift
又叫 Hardware p-state(HWP
)。在 Intel Skylake
和其后的  CPU 架构中,操作系统可以将 P-states 的控制权交回 CPU(Speed Shift Technology,Hardware P-states)

Speed Shift[13]

Intel® Speed Shift Technology is an energy efficient method of frequency control by the hardware rather than relying on OS control. OS is aware of available hardware P-states and requests the desired P-state or it can let the hardware determine the P-state. The OS request is based on its workload requirements and awareness of processor capabilities. Processor decision is based on the different system constraints for example Workload demand, thermal limits while taking into consideration the minimum and maximum levels and activity window of performance requested by the Operating System.

from [https://www.thomas-krenn.com/en/wiki/Processor_P-states_and_C-states]

动态短时 Turbo Boost(Intel 睿频)

Turbo Boost(Intel 睿频)

Intel 的官方回答:什么是英特尔 睿频加速技术?[14]

Turbo Boost(睿频)  工作原理

CPU 并不总是需要以最大频率运行。有些程序更依赖内存来平稳运行,而另一些则属于 CPU 密集型。睿频加速技术就是用来解决这种不平衡问题的节能方案:它允许 CPU 在处理轻负载时以基本时钟速度运行,而在处理高负载时提升至更高的时钟速度。


睿频加速技术可以在安全温度和功率限制内,将 CPU 速度提升到最高睿频。这样就可以提升单线程和多线程应用程序(利用多个处理器内核的程序)的性能。

什么是 Max Turbo Frequency (最大睿频)

处理轻负荷时,CPU 以其规格中列出的基本频率运行。(在使用节能英特尔SpeedStep® 技术调节 CPU 速度时,频率会更低。) 在处理标记为高性能的硬件线程时,英特尔® 睿频加速技术可将时钟速度提高到最大睿频。

例如,英特尔® 酷睿™ i9-9900K 处理器的基本频率为 3.60 GHz,最大睿频为 5.00 GHz。需要注意的是,根据所处情况,特定的CPU可能不会总是达到其最大睿频。速度的动态提升会根据工作负载和可用的热余量而变化。

在比较 CPU 时钟速度时,最大睿频是通常要记住的关键数字。它反映了处理器在超频前的峰值性能。除了内核数和高级功能外,这也是选购 CPU 时要考虑的重点因素之一。

Turbo Boost Max 技术 3.0 是什么

Intel 的官方回答:Get to Know Intel® Turbo Boost Max Technology 3.0[15]

睿频加速 Max 技术 3.0 将软件与硬件巧妙结合。通过识别处理器的最快内核并让其处理最关键的工作负载,使轻量级线程性能得到优化。

睿频加速 Max 技术 3.0 的可用性和频率提升取决于多种因素,包括但不限于以下因素:

  • 工作负载类型
  • 活跃内核的数量
  • 预估的电流消耗
  • 预估的功耗
  • 处理器温度

Turbo Boost Max 技术 2.0 与 3.0 的区别是什么?

Turbo Boost Max 技术 3.0 是 2.0 的增强版,可单独提升 CPU 最快内核的速度,同时将关键工作负载引导至这些已加速的内核。它可以将单线程性能提升高达 15%。英特尔® 睿频加速 Max 技术 3.0 不会取代英特尔® 睿频加速技术 2.0。前者对后者进行了增强,可大幅提高最快内核的频率,从而让用户能够更加灵活地获得卓越的处理器性能。


  • CPU 频率和程序的实际CPU指令相关,有不可以控制的因素
  • CPU 频率和处理器温度有关。想想机房空调的情况会影响你的程序性能,是不是好好玩?

Turbo Boost 技术的机制

下面是一个活跃 core 数和可以达到的最大 Turbo Boost 频率的关系例子[16]

Normal 2,300MHz 3,500MHz 3,500MHz 3,300MHz 3,300MHz 3,200MHz 3,200MHz 3,200MHz 3,200MHz 3,200MHz 3,200MHz 3,200MHz 3,200MHz 3,100MHz 3,100MHz 3,100MHz 3,100MHz 2,900MHz 2,900MHz 2,900MHz 2,900MHz
AVX2 1,600MHz 3,400MHz 3,400MHz 3,200MHz 3,200MHz 3,100MHz 3,100MHz 3,100MHz 3,100MHz 3,100MHz 3,100MHz 3,100MHz 3,100MHz 2,800MHz 2,800MHz 2,800MHz 2,800MHz 2,600MHz 2,600MHz 2,600MHz 2,600MHz
AVX512 1,200MHz 3,400MHz 3,400MHz 3,200MHz 3,200MHz 3,100MHz 3,100MHz 3,100MHz 3,100MHz 2,600MHz 2,600MHz 2,600MHz 2,600MHz 2,300MHz 2,300MHz 2,300MHz 2,300MHz 2,200MHz 2,200MHz 2,200MHz 2,200MHz

可见,活跃 core 数越多,最大 Turbo Boost 频率就越低。这是为了不让 CPU 过热。暂时忽略表格中的Mode


From 这里[17]


Intel 官方 Hyper-Threading Technology 介绍:[18]

Hyper-Threading Technology that allows an execution processor IA core tofunction as two logical processors. Whilesome execution resources such as caches, execution units, and buses are shared, each logical processor has its own architectural state with its own set of general-purpose registers
and control registers



Hyper-Threading: Squeezing Bubbles Out of the Processor's Pipeline(从处理器的管道中挤出气泡)[19] 这是我觉得把超线程说得最接地气的文章,以下是摘录部分内容:



在上图中,不同颜色表示不同进程/线程。RAM 中的每个进程都有不同的颜色。您可以看到一次只能在这个单线程 CPU 上执行一个进程。只有红色进程正在执行,其余进程必须等待轮到它们才能在 CPU 上执行。

CPU 也用其内部组件:

  • Front End
  • Execute Core

您还应该注意到,Execution Core
中的红色框(单元)周围是白色框(单元)。这些白框代表管道气泡,它们错失了在该管道阶段可能已经完成一些少量工作的机会。CPU 的前端也有类似的白框,它代表 CPU 每个时钟周期执行 4 条指令的能力,但作为单线程处理器,在这个例子中它永远不会达到这个限制。

进程愉快地执行,直到它的时间片完成,此时处理器必须执行上下文切换,将进程的上下文保存到内存并强制程序退出执行。进程的上下文是关于该进程的一组元数据,包括它执行了多少、执行了多长时间、寄存器中的值等。进程已知或在执行期间创建的任何内容都将存储到下一个它可以被存储在处理器上执行。通过保存进程的上下文,当 CPU 下次运行该进程时,它对进程来说就好像它一直在运行而没有中断。


代价高昂的上下文切换问题的一种解决方案是每个处理器拥有多个内核。这允许执行两个或更多线程,每个内核上一个意味着所需的上下文切换数量大约是单线程 CPU 的一半。这被称为对称多处理 (SMP),并且已成为处理器中非常常见的布置。需要注意的一点是,每个程序都可以由多个线程组成。当一个程序被分解成多个线程时,如果这些线程是相互独立的,那么同一个程序的多个线程可能同时在多个CPU上执行。


自 2002 年以来,同步多线程 (SMT) 或超线程一直是英特尔处理器(如 Pentium 4)中使用的一个概念。它通过允许每个内核执行多个线程来帮助显着减少浪费的流水线阶段的数量。操作系统调度器把每一个物理核心当作两个“逻辑”处理器来调度线程。

实现这一点的方法是在物理 Core 中重复加入两个用于存储状态的 CPU 组件(如通用寄存器)。即允许两个线程各有自己的寄存器,但它仍然具有相同数量的执行资源(Execution Resources)。这意味着当一个进程因等待内存访问或分支确认而抽风(stalled)时,另一个进程可能正在使用未使用的执行资源,而对于非超线程 CPU,这些资源将闲置。值得注意的是,这种技术的成本相当小,但它对多线程程序的呑吐量有明显提升(注意,不是速度提升,也不是 Latency 减少)。

同样,在上图中,您可以看到超线程 CPU 处理数据的示例。它同时执行来自红色和黄色进程的数据,并尽可能地填充管道阶段,以允许所有执行阶段尽可能频繁地忙碌。您会注意到前端(CPU 指令)和管道本身的气泡要少得多。虽然在此示例中完成的工作量与单线程 SMP 设计完全相同,但浪费的流水线阶段要少得多,并且使用的资源大约有一半,因为仍然只有一组执行资源。

SMT 最酷的部分是操作系统不需要特殊的逻辑来使用 SMT。只要操作系统能够与 SMP 处理器一起工作,它就会将具有超线程能力的 CPU 识别为物理处理器数量的两倍。例如,如果您有幸拥有一个六核 Intel i7 处理器,您的计算机将读取十二个逻辑处理器以供使用。


from Will Hyper-Threading Improve Processing Performance?[20]

超线程与 Turbo Boost 的相关性

from Intel Hyper-Threading Technology: [21]

Processors with both Intel Hyper-Threading
Technology and Intel Turbo Boost
Technology deliver better performance and can complete tasks more quickly.The combination of technologiesenables simultaneous processing of multiple threads, dynamically adapts to the workload, andautomatically disables inactive cores. Thisincreases processor frequency on the busy cores, giving an even greater performance boost for threaded applications.


Measuring Hyper-Threading and Turbo Boost[22] 一文说明了开启超线程,且关闭 Turbo Boost 情况 下,HTTP 请求的延迟增加的情况(不过,其使用的是 AMD CPU。AMD 对应 Intel Turbo Boost 的技术叫:Core Performance Boost(CPB)



超线程共享了 core 的一些资源,意味着,有硬件上的“锁”和有“锁争用”的不确定性。在数据上,也有两个线程相互干扰的可能。

缓存抖动(cache thrashing)

缓存抖动(cache thrashing)[23]

They also state that while there(SMT) will be greater efficiency in the pipeline over the SMP processor, they have found that an SMT processor will have "42% more cache thrashing" over the SMP design.

他们还指出,虽然 SMT 的处理器的流水线效率比 SMP 更高,但他们发现 SMT 处理器比 SMP多出 42% 的缓存抖动。

Hyperthreading, L1/L2 caching, cache busting, thread trashing, and priority bumping![24] 一个节目讨论了:超线程、L1/L2 缓存、缓存破坏、优先级碰撞!

Performance at its (CPU-) Core[25] 一文中,从CPU架构说明了其中的原理:

CPU 缓存分级为:

  • L1I:用于指令的小型、非常快速的缓存。Core间不共享。

  • L1D:一个小而快的数据缓存。Core间不共享。

  • L2:用于数据和指令的更大缓存。此缓存有时在 Core 之间共享,但通常不共享。

  • L3:所有Core共享的大型缓存。它可以轻松占据整个处理器裸片的 1/3,以提供最佳命中率(见上图)。

Linux 在为线程选择执行 Core 时,也会考虑到上面  Cache 的复用优化。

而同一 物理 Core 上的两个逻辑 Core 可能会相互干扰 Cache。试想如果两个不同应用执行于同一物理 Core,干扰将放大。

Hyper-Threaded Cache Coherent Raycasting[26] 一文深入讨论了这个问题。


Measuring Intel Hyper-Thread Overhead[27]

核心和线程 CPI:CPI 代表每条指令的周期数。这是执行给定指令集的平均时间。CPI 指示代码中的指令级并行性。CPI 也可用于估计缓存行因 cpu 缓存中的陈旧数据而失效时的内存获取延迟。例如:基于 Nehalem 内核的 Intel 处理器每个时钟可以执行 4 条指令,即相当于 CPI 0.25。由于缓存未命中和分支错误预测,实际应用程序的平均 CPI 为 1.0 或 2.0。

要捕获核心 CPI,请禁用 HT 并测量 CPI。由于核心专用于单线程,它会给你核心 CPI。

现在启用 HT。由于两个线程共享内核,它们可能执行不同数量的指令和 CPI。让我们假设在一个采样周期内,共享一个内核的两个线程使用了 100 万个内核周期。在此期间,Thread-1 执行了 750k 条指令,Thread-2 执行了 500k 条指令。在这种情况下,Thread-1 CPI:1.33、Thread-2 CPI:2.0 和 Core CPI:0.80(100 万个周期/750+500 条指令)。

Linux 内核

被误解的 CPU 利用率(Utilization)

什么是 CPU 利用率

首先看看什么是  CPU 利用率(Utilization)

CPU time accounting- Linux on System z Performance Evaluation - IBM[28]

Linux 在每个 CPU 上高频周期 Timer 中断执行中的线程。在中断时采样识别被中断的线程,并把本周期的时间片都计入被中断线程的CPU使用账中。

CPU Isolation – Introduction – by SUSE Labs[29]

如果 CPU 利用率(Utilization)
是你的最重要性能指标,那么不好意思。你可能有点点 Out 了,见以下文章:



  • System: The CPU is running kernel code. This includes device drivers and kernel modules.

  • User: The CPU is running code in user-mode. This includes your application code. Note that if an application tries to read from disk or write to network, it actually goes to sleep while the kernel performs that work, and wakes up the application again.

  • I/O Wait: Sometimes the CPU has only one thing to do – wait for the results of a disk/network read/write. This isn’t as uncommon as you’d think. A file server for example would nearly spend all it’s life waiting for disk reads and network writes to complete. I/O Wait is when the CPU is waiting for an I/O operation to complete, and the CPU can’t be used for anything else.

  • Steal: When running in a virtualized environment, the hypervisor may “steal” cycles that are meant for your CPUs and give them to another, for various reasons. This time is accounted for as steal.

  • Idle: And when there is really nothing the kernel can do, it just as to waste away this slice of time. Technically, when the runnable queue is empty and there are no I/O operations going on, the CPU usage is marked as idle.

And there are a couple of other types too, which you probably won’t see much of:

  • IRQ and SoftIRQ: The kernel is servicing interrupt requests (IRQs).

错误(或最少是误导)的 CPU 利用率

CPU Utilization is Wrong - Brendan Gregg[31]

您可能认为 90% 的 CPU 利用率意味着:


Utilization is Virtually Useless as a Metric! - Adrian Cockcroft - Netflix Inc.[32]

大部分人理解的 CPU 利用率和可用率是这样的:


超线程下 CPU 利用率非线性

而超线程下的应用 CPU 利用率的非线性,可能有更多的问题:

Measuring CPU Time from Hyper-Threading Enabled Intel ® Processors - Computer Measurement Group[33] 中做了个实验。是 2004 年的实验,不过还是有一定参考意义的。细节数据我不贴出来了,有兴趣的看看原文。说说总结:

  • 相同的算法程序。关闭超线,各种并发压力下,CPU 用时(sys time + user time,注意不是实际用时(real time) )相同
  • 相同的算法程序。开启超线,各种并发压力下,CPU 用时( sys time + user time ),在程序线程数未超过物理  Core 数前,结果和上面一样 。
  • 相同的算法程序。开启超线,各种并发压力下,CPU 用时( sys time + user time ),在程序线程数超过物理  Core 数后,会随着逻辑 CPU 的用量增加而增加。

CPU utilization of multi-threaded architectures explained - Oracle Solaris Blog[34]



工具报告的 CPU 时间测量指标 (sys/usr/idle) 并未反映硬件线程之间资源共享的副作用。无法正确测量空闲并推断可用计算资源。

Idle 不再表示 CPU 还能完成多少工作:

例如:假设 1 个 CPU 内核有 4 个线程。目前,有 2 个(单线程)进程计划在此内核上运行,这 2 个进程已经使内核的所有可用共享计算资源(ALU、FPU、缓存、内存带宽等)饱和。常用的性能工具仍会报告(至少)50% 的空闲,因为 2 个逻辑处理器(硬件线程)看起来完全空闲。

HyperThreading and CPU usage - Intel® oneAPI Math Kernel Library[35]

问题是通过正在使用的 “逻辑处理器
” 的数量来定义 “CPU 利用率
”。每个 “物理核心
” 使用一个 “逻辑处理器
” 可以被认为是 100% 的 “CPU 利用率
”,但通常报告为 50% 的 “CPU 利用率
”。这让很多人感到困惑。没有明确的 “正确答案” —— 尤其是有两种情况都可能达到“50% CPU 利用率”:

  • 在每个 “物理内核”上使用一个“逻辑处理器”

  • 在一半“物理内核”上使用两个“逻辑处理器”。

后者通常不是您想要做的,但是对于“CPU 利用率”的单一指标是无法区分的。

Hyper-threading -How does it double CPU throughput?[36]

对于 12 core 即 24 个超线程的 CPU 的实验结果:

X 轴是线程数,Y 轴是 TPS。

  1. 您看不到系统实际利用率的真实情况——如果 CPU 图表显示利用率为 30%,那么您的系统很可能已经利用率为 60%。
  2. 超过 60% 的物理利用率,您的请求的执行速度将被故意限制以提供更高的系统吞吐量。

因此,如果您正在优化更高的吞吐量——那可能没问题。但是,如果您正在优化响应时间,那么您可以考虑在关闭 HT 的情况下运行。

Monitoring CPU Utilization Under Hyper-threading[37]

我拥有的最佳情况测试测量表明,每个 超线程的平均繁忙度不能超过 75%,或者根据操作系统的预期总容量 200% 的 150%。我之前提到的“缺失”的 50% 容量是一种错觉。英特尔声称,对于一般应用程序,可以预期 120% 到 130% 的范围内。

动态调频下 CPU 利用率非线性

上面提到的动态调频技术,同样影响 CPU 利用率:

  • Speed Shift Technology
  • Turbo Boost Technology

Linux 调度器对超线程的优化

上面聊了很多硬件问题。回到操作系统上。一个能直接想到的问题是:Linux 会根据超线程和物理 Core 的关系,去优化线程的调度吗?

Linux scheduler is aware of HyperThreading[38]超线程支持确保调度程序可以区分物理 CPU 和逻辑(超线程)CPU。调度程序计算队列是针对每个物理 CPU 实现的,而不是针对每个逻辑 CPU(如之前的情况)。这导致进程在物理 CPU 上均匀分布,从而最大限度地利用 CPU 缓存和指令缓冲区等资源。

Linux 观察 CPU 性能管理策略与性能状态

这个问题留给下一 part 2 来讨论,内容预告:

  • CPU 性能与电源策略
  • CPU 工作频率与 p-state
  • Turbo Boost 的配置与观察



  • Container Bare Metal for 2nd Generation and 3rd Generation Intel  Xeon  Scalable Processor - REFERENCE ARCHITECTURE RELEASE V21.08[39]
  • Container Bare Metal for 2nd Generation and 3rd Generation Intel® Xeon® Scalable Processor and Intel® Xeon® D Processor Reference Architecture User Guide Release V22.01[40]



Unlike the P-States
, which are designed to optimize power consumption during code execution, C-States are used to optimize or reduce power consumption in idle mode (i. e. when no code is executed).

  • https://www.intel.com/content/www/us/en/develop/documentation/vtune-help/top/reference/energy-analysis-metrics-reference/c-state.html
  • https://www.thomas-krenn.com/en/wiki/Processor_P-states_and_C-states
  • https://www.technikaffe.de/anleitung-32-c_states_p_states_s_states__energieverwaltung_erklaert


  • Intel p-state Linux Driver[41]




Intel® Xeon® Gold 6230N:https://ark.intel.com/content/www/us/en/ark/products/192450/intel-xeon-gold-6230n-processor-27-5m-cache-2-30-ghz.html


What Is Clock Speed?:https://www.intel.com/content/www/us/en/gaming/resources/cpu-clock-speed.html


几个技术会自动动态调整 CPU 运行频率:https://en.wikichip.org/wiki/intel/frequency_behavior


Enhanced Intel SpeedStep Technology:https://edc.intel.com/content/www/us/en/design/ipla/software-development-platforms/client/platforms/alder-lake-desktop/12th-generation-intel-core-processors-datasheet-volume-1-of-2/002/enhanced-intel-speedstep-technology_1/


Speed Shift Technology:https://en.wikichip.org/w/index.php?title=intel/speed_shift_technology&action=edit&redlink=1


Turbo Boost Max Technology:https://en.wikichip.org/wiki/intel/turbo_boost_max_technology


Thermal Velocity Boost:https://en.wikichip.org/wiki/intel/thermal_velocity_boost


Speed Select Technology:https://en.wikichip.org/wiki/intel/speed_select_technology




Intel 对 P-State 的说明::https://www.intel.com/content/www/us/en/develop/documentation/vtune-help/top/reference/energy-analysis-metrics-reference/p-state.html


Linux 对 p-State 的说明::https://www.kernel.org/doc/html/v5.0/admin-guide/pm/cpufreq.html


Enhanced Intel SpeedStep® Technology:https://edc.intel.com/content/www/us/en/design/ipla/software-development-platforms/client/platforms/alder-lake-desktop/12th-generation-intel-core-processors-datasheet-volume-1-of-2/002/enhanced-intel-speedstep-technology_1/


Speed Shift:https://edc.intel.com/content/www/us/en/design/ipla/software-development-platforms/client/platforms/alder-lake-desktop/12th-generation-intel-core-processors-datasheet-volume-1-of-2/002/intel-speed-shift-technology/


什么是英特尔 睿频加速技术?:https://www.intel.cn/content/www/cn/zh/gaming/resources/turbo-boost.html


Get to Know Intel® Turbo Boost Max Technology 3.0:https://www.intel.com/content/www/us/en/architecture-and-technology/turbo-boost/turbo-boost-max-technology.html


最大 Turbo Boost 频率的关系例子:https://en.wikichip.org/wiki/intel/xeon_gold/6230n




Intel 官方 Hyper-Threading Technology 介绍::https://edc.intel.com/content/www/us/en/design/ipla/software-development-platforms/client/platforms/alder-lake-desktop/12th-generation-intel-core-processors-datasheet-volume-1-of-2/002/intel-hyper-threading-technology/


Hyper-Threading: Squeezing Bubbles Out of the Processor's Pipeline(从处理器的管道中挤出气泡):https://www.cs.uaf.edu/2011/spring/cs641/proj1/rltorgerson/


Will Hyper-Threading Improve Processing Performance?:https://www.dasher.com/will-hyper-threading-improve-processing-performance/


from Intel Hyper-Threading Technology: :https://www.intel.com/content/www/us/en/architecture-and-technology/hyper-threading/hyper-threading-technology.html#:~:text=Processors%20with%20both%20Intel%C2%AE%20HT%20Technology%20and%C2%A0Intel%C2%AE%20Turbo%20Boost%20Technology


Measuring Hyper-Threading and Turbo Boost:https://blog.cloudflare.com/measuring-hyper-threading-and-turbo-boost/


缓存抖动(cache thrashing):https://www.cs.uaf.edu/2011/spring/cs641/proj1/rltorgerson/#:~:text=SMT%20processor%20will%20have%20%2242%25%20more%20cache%20thrashing%22%20over%20the%20SMP%20design


Hyperthreading, L1/L2 caching, cache busting, thread trashing, and priority bumping!:https://www.javapubhouse.com/2013/05/episode-38-hyperthreading-l1l2-caching.html


Performance at its (CPU-) Core:https://tech.willhaben.at/performance-at-its-cpu-core-e5633e27d1f1


Hyper-Threaded Cache Coherent Raycasting:http://citeseerx.ist.psu.edu/viewdoc/download?doi=


Measuring Intel Hyper-Thread Overhead:http://techblog.cloudperf.net/2016/07/measuring-intel-hyper-thread-overhead.html


CPU time accounting- Linux on System z Performance Evaluation - IBM:http://public.dhe.ibm.com/software/dw/linux390/perf/CPU_time_accounting.pdf


CPU Isolation – Introduction – by SUSE Labs:https://www.suse.com/c/cpu-isolation-introduction-part-1/


UNDERSTANDING CPU USAGE IN LINUX - opsdash:https://www.opsdash.com/blog/cpu-usage-linux.html


CPU Utilization is Wrong - Brendan Gregg:https://www.brendangregg.com/blog/2017-05-09/cpu-utilization-is-wrong.html


Utilization is Virtually Useless as a Metric! - Adrian Cockcroft - Netflix Inc.:http://www.hpts.ws/papers/2007/Cockcroft_HPTS-Useless.pdf


Measuring CPU Time from Hyper-Threading Enabled Intel ® Processors - Computer Measurement Group:https://www.cmg.org/wp-content/uploads/2009/06/2003_johnson_3096.pdf


CPU utilization of multi-threaded architectures explained - Oracle Solaris Blog:https://blogs.oracle.com/solaris/post/cpu-utilization-of-multi-threaded-architectures-explained


HyperThreading and CPU usage - Intel® oneAPI Math Kernel Library:https://community.intel.com/t5/Intel-oneAPI-Math-Kernel-Library/HyperThreading-and-CPU-usage/m-p/1134675/highlight/true#M25930


Hyper-threading -How does it double CPU throughput?:https://www.percona.com/blog/2015/01/15/hyper-threading-double-cpu-throughput/


Monitoring CPU Utilization Under Hyper-threading:http://perfdynamics.blogspot.com/2014/01/monitoring-cpu-utilization-under-hyper.html#fromHistory#fromHistory


Linux scheduler is aware of HyperThreading:https://static.redhat.com/legacy/whitepapers/rhel/RHELwhitepaperfinal.pdf


Container Bare Metal for 2nd Generation and 3rd Generation Intel  Xeon  Scalable Processor - REFERENCE ARCHITECTURE RELEASE V21.08:https://builders.intel.com/docs/networkbuilders/container-bare-metal-for-2nd-3rd-generation-intel-xeon-scalable-processor.pdf


Container Bare Metal for 2nd Generation and 3rd Generation Intel® Xeon® Scalable Processor and Intel® Xeon® D Processor Reference Architecture User Guide Release V22.01:https://builders.intel.com/docs/networkbuilders/container-bare-metal-for-2nd-generation-and-3rd-generation-intel-xeon-scalable-processor-and-intel-xeon-d-reference-architecture-user-guide-1645717035.pdf


Intel p-state Linux Driver:https://www.kernel.org/doc/Documentation/cpu-freq/intel-pstate.txt

与[转帖]被误解的CPU利用率、超线程、动态调频 —— CPU 性能之迷 Part 1相似的内容:

[转帖]被误解的CPU利用率、超线程、动态调频 —— CPU 性能之迷 Part 1

https://www.modb.pro/db/555820 引 TL;DR 这“引”部分写得有点多了,不喜直接跳到下一节。 性能测试、压力测试、业务系统性能容量评估。这 3 件事,可以认为是大部分程序员/软件开发从业者都需要面对的事。但,奇怪的是,很多人花了很多时间去做完成这些工作任务,却很少有人

[转帖]apt update和apt upgrade命令 - 有什么区别?

在之前的文章中,我们查看了APT 命令以及您可以使用包管理器来管理包的各种方法。这是一个总体概述,但在本指南中,我们暂停并重点关注 2 个命令用法。这些是apt update和apt upgrade命令。 apt update 和 apt upgrade 是许多 Linux 用户最常用但被误解的两个

[转帖]磁盘负载指标 %iowait, await, %util 的正确理解

说明 %iowait, await, %util 是用来衡量硬盘负载的三个指标, 但是这几个指标通常容易被误解, 实际上, 这三个指标单纯的高, 并不一定能说明相应的磁盘有问题或者有瓶颈, 而是需要结合具体执行 IO 操作的程序的执行方式, 综合的来判断指标高的原因. 关于 await, %util

[转帖]磁盘负载指标 %iowait, await, %util 的正确理解

说明 %iowait, await, %util 是用来衡量硬盘负载的三个指标, 但是这几个指标通常容易被误解, 实际上, 这三个指标单纯的高, 并不一定能说明相应的磁盘有问题或者有瓶颈, 而是需要结合具体执行 IO 操作的程序的执行方式, 综合的来判断指标高的原因. 关于 await, %util

[转帖]已经被废弃的 tcp_tw_recycle

最近准备自己动手部署测试kubernetes集群,注备写一个 hands on 的手册。突发奇想将 centos 原有的内核从3.10更新到了4.14版本,并执行一些常规的优化操作。没有想到在修改了 sysctl.conf 里面的一些参数,希望能对新的 kubernetes 性能有所帮助。 当我在其


https://baijiahao.baidu.com/s?id=1747630942348916820&wfr=spider&for=pc 个人站不能放广告吗? cnBeta网站备案被取消,停止国内解析,但国外还可以访问。 网上传闻原因有2个,个人备案、政治属性广告。 当然了,cnBeta换成企业

[转帖]tmp 目录文件被自动清理问题的调查

https://kodango.com/mistaked-to-delete-tmp-files 某次项目发布过程中,当我们把 rpm 包下发到每台 nc 之后,发现过了一会儿文件就被删除了,当时百思不得其解,第二天亲自试了下,果然能够稳定复现。 试了几次发现,放在 /tmp 目录下的文件,只要文件

[转帖]Redis 的数据被删除,内存占用还这么大?

作者 | 码哥 来源 | 码哥字节 操作系统分配给 Redis 的内存有 6GB,通过指标 used_memory_human 发现存储数据只使用了 4GB,为何会这样?为何无法保存数据? 通过 CONFIG SET maxmemory 100mb或者在 redis.conf 配置文件设置 maxm

[转帖]linux 上进程被随机kill掉,如何监测和查询;谁杀了我的进程;Who sends a SIGKILL to my process mysteriously on ubuntu server

https://www.cnblogs.com/xuyaowen/p/linux-audit.html 今天跑实验,发现进程被随机kill。咨询了服务器上的其他同学,他们说之前也发生过,一直存在。看来可能有可能不是我自己程序的原因,只能自己动手解决了。 在 Who sends a SIGKILL t


https://www.jianshu.com/p/9fc0e45ebf0d 对于一个被加载到虚拟机中的类,Metaspace需要分配class和no-class空间 最大的一部分是 Klass 结构,它是固定大小的。 然后紧跟着两个可变大小的 vtable 和 itable,前者由类中方法的数量决