[转帖]CPU缓存行

cpu,缓存 · 浏览次数 : 0

小编点评

## CPU缓存 CPU缓存是CPU与主存之间的高速通信路径,用于缓存主存中的数据。它可以分为一级缓存、二级缓存、三级缓存等。 **一级缓存** 一级缓存是最接近CPU的缓存,位于CPU的内部。它包含最常用的数据和指令,可以同时被多个线程访问。 **二级缓存** 二级缓存位于CPU的内部,但更接近一级缓存。它包含与一级缓存相同的数据和指令,但它们不在CPU的内部。 **三级缓存** 三级缓存位于CPU的外部,最远从CPU。它包含与二级缓存相同的数据和指令,但它们不在CPU的内部。 **缓存的结构** 每个缓存都由缓存行组成的。缓存行是2的整数幂个连续字节,一般为32-256个字节。每个缓存行上的数据都包含多个数据块,每个数据块包含多个字节。 **缓存的注意事项** * 缓存是共享的,多个线程可以访问同一个缓存行。 * 缓存是不可变的,一旦创建就不能修改。 * 缓存的性能与缓存行的大小和存取算法有关。 **优化** * 使用缓存可以提高程序的性能,减少CPU访问主存的次数。 * 选择合适的缓存行大小和存取算法可以优化缓存的性能。

正文

https://www.jianshu.com/p/e338b550850f

 

CPU缓存     

  执行程序是靠运行CPU执行主存中代码,但是CPU和主存的速度差异是非常大的,为了降低这种差距,在架构中使用了CPU缓存,现在的计算机架构中普遍使用了缓存,分为一级缓存,二级缓存,还有一些具备三级缓存,我们可以看看这些组件的数据获取访问速度。

从CPU到大约需要的 CPU 周期大约需要的时间

主存 约60-80纳秒

QPI 总线传输

(between sockets, not drawn)

 约20ns

L3 cache约40-45 cycles,约15ns

L2 cache约10 cycles,约3ns

L1 cache约3-4 cycles,约1ns

寄存器1 cycle

如果要了解缓存,就必须要了解缓存的结构,以及多个CPU核心访问缓存存在的一些问题和注意事项。

 

每个缓存里面都是由缓存行组成的,缓存系统中是以缓存行(cache line)为单位存储的。缓存行是2的整数幂个连续字节,一般为32-256个字节。最常见的缓存行大小是64个字节。当多线程修改互相独立的变量时,如果这些变量共享同一个缓存行,就会无意中影响彼此的性能,这就是伪共享。缓存行上的写竞争是运行在SMP系统中并行线程实现可伸缩性最重要的限制因素。有人将伪共享描述成无声的性能杀手,因为从代码中很难看清楚是否会出现伪共享。

伪共享问题

 

图中说明了伪共享的问题。在核心1上运行的线程想更新变量X,同时核心2上的线程想要更新变量Y。不幸的是,这两个变量在同一个缓存行中。每个线程都要去竞争缓存行的所有权来更新变量。如果核心1获得了所有权,缓存子系统将会使核心2中对应的缓存行失效。当核心2获得了所有权然后执行更新操作,核心1就要使自己对应的缓存行失效。这会来来回回的经过L3缓存,大大影响了性能。如果互相竞争的核心位于不同的插槽,就要额外横跨插槽连接,问题可能更加严重。

缓存行带来的锁竞争

处理器为了提高处理速度,不直接和内存进行通讯,而是先将系统内存的数据读到内部缓存(L1,L2或其他)后再进行操作,但操作完之后不知道何时会写到内存;如果对声明了Volatile变量进行写操作,JVM就会向处理器发送一条Lock前缀的指令,将这个变量所在缓存行的数据写回到系统内存。但是就算写回到内存,如果其他处理器缓存的值还是旧的,再执行计算操作就会有问题,所以在多处理器下,为了保证各个处理器的缓存是一致的,就会实现缓存一致性协议,每个处理器通过嗅探在总线上传播的数据来检查自己缓存的值是不是过期了,当处理器发现自己缓存行对应的内存地址被修改,就会将当前处理器的缓存行设置成无效状态,当处理器要对这个数据进行修改操作的时候,会强制重新从系统内存里把数据读到处理器缓存里。

    当多个线程对同一个缓存行访问时,其中一个线程会锁住缓存行,然后操作,这时候其他线程没办法操作缓存行。

缓存行

需要注意,数据在缓存中不是以独立的项来存储的,如不是一个单独的变量,也不是一个单独的指针。缓存是由缓存行组成的,通常是64字节(译注:这篇文章发表时常用处理器的缓存行是64字节的,比较旧的处理器缓存行是32字节),并且它有效地引用主内存中的一块地址。一个Java的long类型是8字节,因此在一个缓存行中可以存8个long类型的变量。

 

 

如果你访问一个long数组,当数组中的一个值被加载到缓存中,它会额外加载另外7个。因此你能非常快地遍历这个数组。事实上,你可以非常快速的遍历在连续的内存块中分配的任意数据结构。我在第一篇关于ring buffer的文章中顺便提到过这个,它解释了我们的ring buffer使用数组的原因。

因此如果你数据结构中的项在内存中不是彼此相邻的(链表,我正在关注你呢),你将得不到免费缓存加载所带来的优势。并且在这些数据结构中的每一个项都可能会出现缓存未命中。

不过,所有这种免费加载有一个弊端。设想你的long类型的数据不是数组的一部分。设想它只是一个单独的变量。让我们称它为head,这么称呼它其实没有什么原因。然后再设想在你的类中有另一个变量紧挨着它。让我们直接称它为tail。现在,当你加载head到缓存的时候,你也免费加载了tail。

 

 

直到你意识到tail正在被你的生产者写入,而head正在被你的消费者写入。这两个变量实际上并不是密切相关的,而事实上却要被两个不同内核中运行的线程所使用。

 

 

设想你的消费者更新了head的值。缓存中的值和内存中的值都被更新了,而其他所有存储head的缓存行都会都会失效,因为其它缓存中head不是最新值了。请记住我们必须以整个缓存行作为单位来处理(译注:这是CPU的实现所规定的,详细可参见深入分析Volatile的实现原理),不能只把head标记为无效。

 

 

现在如果一些正在其他内核中运行的进程只是想读tail的值,整个缓存行需要从主内存重新读取。那么一个和你的消费者无关的线程读一个和head无关的值,它被缓存未命中给拖慢了。

当然如果两个独立的线程同时写两个不同的值会更糟。因为每次线程对缓存行进行写操作时,每个内核都要把另一个内核上的缓存块无效掉并重新读取里面的数据。你基本上是遇到两个线程之间的写冲突了,尽管它们写入的是不同的变量。

这叫作“伪共享”(译注:可以理解为错误的共享),因为每次你访问head你也会得到tail,而且每次你访问tail,你也会得到head。这一切都在后台发生,并且没有任何编译警告会告诉你,你正在写一个并发访问效率很低的代码。

避免伪共享

  在Java中

        你会看到Disruptor消除这个问题,至少对于缓存行大小是64字节或更少的处理器架构来说是这样的(译注:有可能处理器的缓存行是128字节,那么使用64字节填充还是会存在伪共享问题),通过增加补全来确保ring buffer的序列号不会和其他东西同时存在于一个缓存行中。

 

 

因此没有伪共享,就没有和其它任何变量的意外冲突,没有不必要的缓存未命中。

 Java8实现字节填充避免伪共享 

  JVM参数  -XX:-RestrictContended 

   @Contended 位于 sun.misc 用于注解java 属性字段,自动填充字节,防止伪共享

 

  在C语言中

   避免伪共享,编译器会自动将结构体,字节补全和对其,对其的大小最好是缓存行的长度。

   总的来说,结构体实例会和它的最宽成员一样对齐。编译器这样做因为这是保证所有成员自对齐以获得快速存取的最容易方法。

从上面的情况可以看出,在设计数据结构的时候,应该尽量将只读数据与读写数据分开,并具尽量将同一时间访问的数据组合在一起。这样 CPU 能一次将需要的数据读入。如:

 

 这样的数据结构就很不利。

 在 X86 下,可以试着修改和调整它

CACHE_LINE_SIZE – sizeof(int)+sizeof(name)*sizeof(name[0])%CACHE_LINE_SIZE看起来很不和谐,CACHE_LINE_SIZE表示高速缓存行为 64Bytes 大小。 __align 用于显式对齐。这种方式是使得结构体字节对齐的大小为缓存行的大小

 
 
 
22人点赞
 
 
 

与[转帖]CPU缓存行相似的内容:

[转帖]CPU缓存行

https://www.jianshu.com/p/e338b550850f CPU缓存 执行程序是靠运行CPU执行主存中代码,但是CPU和主存的速度差异是非常大的,为了降低这种差距,在架构中使用了CPU缓存,现在的计算机架构中普遍使用了缓存,分为一级缓存,二级缓存,还有一些具备三级缓存,我们可以看

[转帖]CPU Cache Line:CPU缓存行/缓存块

《CPU Cache Line伪共享问题的总结和分析》 以下文章来源于小林coding ,作者小林coding Table of Contents CPU Cache 有多快? CPU Cache 的数据结构和读取过程是什么样的? 如何写出让 CPU 跑得更快的代码? 总结 前言 代码都是由 CPU

[转帖]国产服务器CPU架构与行业研究报告(节选四)

https://zhuanlan.zhihu.com/p/527034350 ​ 目录 收起 4 服务器CPU演进趋势 4.1 CPU优化的传统方式 4.1.1 工艺制程提升 4.1.2 并行度(核数)提升 4.1.3 缓存提升 4.1.4 专用指令集 4.2 CPU提升性能的新趋势 4.2.1 H

[转帖]CPU性能监控之一------CPU架构

CPU性能监控之一 CPU架构 https://blog.51cto.com/hl914/1557231 先说下CPU的缓存吧,都知道CPU的缓存是分为L1,L2和L3的,L1又分为数据缓存和指令缓存,每颗CPU核心都有自己的L1和L2,但L3是各核心共享的,一但涉及共享的东西,当然就有竞争咯。 S

[转帖]多CPU && 多核CPU | 多进程 && 多线程 | 并行 && 并发

https://cloud.tencent.com/developer/article/1886157?areaSource=&traceId= 文章目录 区分 多CPU && 多核CPU CPU缓存 并行 && 并发 多CPU && 多核CPU | 多进程 && 多线程 | 并行 && 并发 之间

[转帖]多CPU && 多核CPU | 多进程 && 多线程 | 并行 && 并发

https://cloud.tencent.com/developer/article/1886157?areaSource=&traceId= 文章目录 区分 多CPU && 多核CPU CPU缓存 并行 && 并发 多CPU && 多核CPU | 多进程 && 多线程 | 并行 && 并发 之间

[转帖]人人都应该知道的CPU缓存运行效率

https://zhuanlan.zhihu.com/p/628017496 提到CPU性能,大部分同学想到的都是CPU利用率,这个指标确实应该首先被关注。但是除了利用率之外,还有很容易被人忽视的指标,就是指令的运行效率。如果运行效率不高,那CPU利用率再忙也都是瞎忙,产出并不高。 这就好比人,每天

[转帖]CPU设计过程

Table of Contents CPU设计过程 构建芯片:芯片的布局和物理构建 https://mp.weixin.qq.com/s/R6kuv60e8X3dLRYk0YsO3w 4级流水线示例。彩色方框表示相互独立的指令。(图片来源:维基百科) 在典型的处理器上,每个核心将有两个L1缓存:一个

[转帖]CPU设计过程

Table of Contents CPU设计过程 构建芯片:芯片的布局和物理构建 https://mp.weixin.qq.com/s/R6kuv60e8X3dLRYk0YsO3w 4级流水线示例。彩色方框表示相互独立的指令。(图片来源:维基百科) 在典型的处理器上,每个核心将有两个L1缓存:一个

[转帖]《Linux性能优化实战》笔记(七)—— CPU瓶颈快速分析及性能优化思路

相当于是前面篇章的小结 一、 CPU 性能指标 常见指标包括: 平均负载CPU 使用率(user、iowait、system、软硬中断等)进程上下文切换(自愿、非自愿)CPU 缓存的命中率 CPU 的处理速度就比内存的访问速度快得多。这样,CPU 在访问内存的时候,免不了要等待内存的响应。为了协调这