[转帖]“高密度核心”的角逐 —— AMD Bergamo SoC & Zen 4c 前瞻

高密度,核心,角逐,amd,bergamo,soc,zen,4c,前瞻 · 浏览次数 : 0

小编点评

## Bergamo SoC 的性能提升 Bergamo 是 AMD SP5平台的 8 CCD 服务器 SoC,与 Genoa 相同,但拥有两倍的 CPU核心数。 * Bergamo SoC 的成本与售价约低于 12 CCD 的 96 核 Genoa,但能提供 2 倍的 CPU核心数。 * Bergamo 的性能可比 Genoa 高约 23%。 * Bergamo 可以通过调整内存配置进行性能优化,像将 16 MB 的 L3 cache 限制为 16 MB BIOS 配置即可提升性能。 * Bergamo 的性能提升幅度与 16 核 Genoa 相似的服务器,约 19%。 * Bergamo 可以通过使用单条 DDR5-5600B JEDEC 时序内存,提供约 40 GB/s 的内存带宽配置。

正文

https://zhuanlan.zhihu.com/p/585469720

  

最近这段时间一直在关注Bergamo和Zen 4c,但遗憾的是Genoa的发布会并没有提到太多的Bergamo细节。不过这并不妨碍我们借助已发布的硬件偷瞄它到底有几斤几两,提前解馋。

Bergamo SoC为何物

从目前各类官方/非官方的信息来看,Bergamo是AMD SP5平台的8CCD服务器SoC。

  • TSMC 4nm工艺的CCD
  • 128核256线程,总共256M的缓存,即每核心的L3缓存为常规Zen 4的一半
  • 每CCD 16核心,总共8CCD
  • 320-400W cTDP,与已发布的高端Genoa相同。
VideoCardz总结Yuuki_AnS提供的SKU信息

为什么要做Bergamo

观察Zen 4的die shot可以发现,CCX区域有56%的面积是L2/L3的SRAM和相关控制结构,15%左右是巨大的FPU,其余核心面积只占不到30%。

Zen 4 CCD 官方图

这意味着在保留完整“Zen 4”微架构的前提下,将每个CCX的L3缓存砍半,并且CPU核心区域采用更高密度的物理设计(官方说法是核心区域也约为一半面积)即可在接近或略大于一个Zen 4 CCX的面积里塞下两倍的CPU核心数,用8个“大核”换取16个“小核”。

可以推测,Bergamo SoC的成本与售价远低于12 CCD的96核Genoa,只是略高于8 CCD的Genoa,但能在相似的面积内提供两倍的CPU核心数。对于一次购买成千上万片服务器SoC的互联网大厂、云厂而言,相近的成本下能获得如此多的核心数提升,显然是非常具有吸引力的。

那么问题就只剩下一个:核心数是翻倍了,但是性能究竟能提升几成呢?

测试方法

服务器CPU核心数量较多时,DRAM带宽、缓存以及功耗都会成为非常宝贵的资源,每个核心能分配到的并不多。所以如果想要准确地模拟Genoa/Bergamo的环境进行多核性能评估,需要在控制功耗的同时严格控制缓存容量和内存带宽等变量才能较为准确做到,尤其是对于SPECint2017这类对缓存、内存较为敏感的测试。

幸运的是,AMD在桌面处理器里也实现了L3 QoS(或者说,忘记砍掉了?),因此我们现在就能通过调整QoS以及内存配置,通过7950X的16个核心大致模拟一个Zen 4c CCD出来。

  • 安装单条DDR5-5600B JEDEC时序的内存(运行于5200B),提供约40 GB/s 的内存带宽
  • 配置处理器L3 QoS,将每个CCX的缓存各限制为16 MB
  • BIOS配置PPT=65W
  • 线程数的大幅度增加带来DRAM容量需求的提升,因此不使用SMT (copies = 16) ,以更真实地模拟Bergamo的应用场景

经过这些配置,运行多核测试时CPU核心实际大约能分配到35-40W左右的功耗(取决于内存/IO负载高低),可以近似认为这样一个“模拟Zen 4c CCD”分配到的功耗与320-400W左右的8CCD服务器SoC上的一个CCD相同。内存带宽、缓存容量也大约相当于Bergamo 128核处理器满载时一个16核心CCD能分配到的资源。

对照组是同样PPT=65W的完整1CCD 8核心配置(32M L3缓存),开启SMT (8C16T)、单通道DDR5-5200B,用于模拟8CCD的64核Genoa处理器满载时单个CCD的性能。

同时加入13900K的8P16T/16E16T PL1=65W的测试作为对比。由于Intel桌面平台没有L3 QoS所以没有办法精确控制缓存容量,只能通过调整内存配置的方式尽量模拟相同的环境。再加上两个平台的uncore功耗特性也大不相同(13900K实际65W PL下核心大约能分到>50W功耗),Intel也没有打算拿胶水粘几个13900K去给服务器用,所以这一组对比仅供娱乐

测试结果

SPECint2017 rate-N

可以看出,在功耗与内存带宽受限的情况下,16核心“模拟Zen 4c”相比8核16线程的“常规Zen 4”可以获得大约23%的性能提升。这个提升幅度甚至略大于同样65W功耗下16线程Gracemont相比Golden Cove的性能提升(19%),那么Bergamo的意义就不言而喻了。

在Genoa的官方PPT里,96核EPYC 9654的SPECint2017 rate-N性能刚好比64核EPYC 9554高23%左右,所以可以认为Bergamo只用了略高于8CCD的成本和更少的128线程,即可达成接近12CCD 192线程Genoa的性能。

总结与展望

毫无疑问,考虑到桌面与服务器SoC的体质、总线拓扑以及缓存、内存延迟差异等多方面因素,以及Zen 4c不同工艺、不同物理设计带来的不同V/f曲线,这样一个“模拟实验”注定是不能做到100%精确的。不过AMD多次公开强调Zen 4/4c在ISA、微架构层面的相似性,因此针对SPECint2017这类测试,我们使用控制缓存和内存的手段依然能获得不少有用的信息,推测出大致的性能相对关系。

与Intel的Core/Atom双微架构并行不同的是,AMD选择了一条单一微架构,多个细分设计的道路。这不禁让我想起早些年高通855/865的"prime core"设计——针对不同的应用场景做出不同密度的物理设计,使用单一微架构达到一石二鸟的目的。事实证明,855与865都是高通相当成功的产品。AMD未来会不会也在某些产品里应用相似的设计思路呢?

目光回到数据中心,我们可以看到Bergamo很显然将会成为2023年非常有竞争力的细分领域数据中心处理器。但如今不仅AMD在尝试做出更高密度的数据中心SoC,Intel的Sierra Forest系列也即将到来,众多ARM SoC这些年来也一直在虎视眈眈。未来几年内,数据中心高密度SoC的竞争必然会愈演愈烈。胜负尚未揭晓,让我们拭目以待。

与[转帖]“高密度核心”的角逐 —— AMD Bergamo SoC & Zen 4c 前瞻相似的内容:

[转帖]“高密度核心”的角逐 —— AMD Bergamo SoC & Zen 4c 前瞻

https://zhuanlan.zhihu.com/p/585469720 最近这段时间一直在关注Bergamo和Zen 4c,但遗憾的是Genoa的发布会并没有提到太多的Bergamo细节。不过这并不妨碍我们借助已发布的硬件偷瞄它到底有几斤几两,提前解馋。 Bergamo SoC为何物 从目前各

[转帖]Zen4架构+5nm制程+96核心 第四代AMD EPYC处理器强势来袭

https://new.qq.com/rain/a/20221111A098QE00 不得不承认,技术的持续突破和迭代,使得AMD处理器在近年来得到了“喷气机式”的增长,无论是产品性能,还是产品的功耗,又或者说是产品的方方面面,AMD处理器都做到了空前的高度。而且,沿袭对创新和品质的追求,在“Zen

[转帖]高并发场景下JVM调优实践之路

https://www.jianshu.com/p/f5f5f99e2417 一、背景 2021年2月,收到反馈,视频APP某核心接口高峰期响应慢,影响用户体验。 通过监控发现,接口响应慢主要是P99耗时高引起的,怀疑与该服务的GC有关,该服务典型的一个实例GC表现如下图: image image

[转帖]中国高性能计算进展与挑战

https://www.cnblogs.com/xuyaowen/p/hpc-china.html 中国高性能计算持续发展,下面对其进展和挑战进行简要概述,以把握中国高性能计算未来几年的发展: 国家863计划: 2002-2005:高性能计算机及核心软件(863重大专项) 强调资源共享与协同工作 以

[转帖]点评RISC-V芯片出货量突破100亿

点评RISC-V芯片出货量突破100亿 RISC-V生态发展呈现明显加速态势,除了超过100亿核心的出货量,还有两个很明显的趋势: 1)出现一批瞄准高性能RISC-V的国内外企业,性能对标ARM Cortex-A76/A78,甚至Neoverse-N1/N2,这些企业将把RISC-V从嵌入式场景拓展

[转帖]Linux:CPU频率调节模式以及降频方法简介

概述 cpufreq的核心功能,是通过调整CPU的电压和频率,来兼顾系统的性能和功耗。在不需要高性能时,降低电压和频率,以降低功耗;在需要高性能时,提高电压和频率,以提高性能。 cpufreq 是一个动态调整cpu频率的模块,系统启动时会生成一个文件夹 /sys/devices/system/cpu

[转帖]TCP半连接队列和全连接队列

TCP半连接队列和全连接队列 文章很长,建议收藏起来慢慢读! 总目录 博客园版 为您奉上珍贵的学习资源 : 免费赠送 :《尼恩Java面试宝典》持续更新+ 史上最全 + 面试必备 2000页+ 面试必备 + 大厂必备 +涨薪必备免费赠送 经典图书:《Java高并发核心编程(卷1)》 面试必备 + 大

[转帖]信创核心标的之太极股份

https://xueqiu.com/7439145187/243249254 来自守望者的策略世界的雪球专栏 1、对太极股份的定位:首先,宏观大背景是信创将成为自主可控的底层基座,事实上已经是科技领域的大基建,政策定调高、支持力度大、可预见性强、市场空间大,布局是有必要性的;其次,太极股份是央企中

[转帖]Nginx惊群效应引起的系统高负载

https://zhuanlan.zhihu.com/p/401910162 原创:蒋院波 导语:本文从进程状态,进程启动方式,网络io多路复用纬度等方面知识,分享解决系统高负载低利用率的案例 前言: 趣头条SRE团队,从服务生命周期管理、混沌工程、业务核心链路治理、应急预案、服务治理(部署标准化、

[转帖]Linux性能优化(十五)——CPU绑定

一、孤立CPU 1、孤立CPU简介 针对CPU密集型的任务,CPU负载较高,推荐设置CPU Affinity,以提高任务执行效率,避免CPU进行上下文切换,提高CPU Cache命中率。 默认情况下,Linux内核调度器可以使用任意CPU核心,如果特定任务(进程/线程)需要独占一个CPU核心并且不想