[转帖]图解第四代英特尔至强可扩展处理器家族

图解,第四代,英特尔,扩展,处理器,家族 · 浏览次数 : 0

小编点评

**第四代英特尔至强可扩展处理器(SPR)简介** * fourth generation of Intel Xeon processor. * 继承了 2D Mesh 架构和 Chiplet 技术。 * 核心数最多可达 60 个。 * TDP 指标上限从 270 瓦跃至 350 瓦。 * 支持 4 种加速器,每个 SKU 都至少有 1 个。 * 针对各种应用场景的优化版本,包括内存数据库、分析和虚拟化。

正文

https://aijishu.com/a/1060000000379987

 

 

今天,代号Sapphire Rapids(SPR)的第四代英特尔至强(Intel Xeon)可扩展处理器,终于来了。

从三代Lake变到Rapids,有继承,有发展。这里的继承是指2D Mesh(网格)架构,发展是指Chiplet(小芯片)技术,都与CPU核心数的增长密切相关,而又不止于此。
11.jpeg

第四代英特尔至强可扩展处理器(以下简称“四代至强CPU”)的核心数最多可达60个,比代号Ice Lake(-SP)的第三代至强可扩展处理器高出50%。相应的,公开款的TDP指标上限,也从270瓦(W)一跃而至350瓦。

这一波核数增长的关键是,大英(终于)从单片式(monolithic)的die,转为四等分的die拼接。

这早就不是什么秘密,不到一年前,在《2021中国云数据中心考察报告》第二章“多元算力”篇,我用AMD初代EPYC(代号Naples)和AWS Graviton3两位“前辈”做了简单的类比。四代至强与EPYC初代的共同点是对等的4个die(AMD称之为MCM);与Graviton3的共同点是2D Mesh架构、DDR5和PCIe 5.0。

区别在于,Graviton3的Chiplet是将DDR5、PCIe 5.0等外围I/O分离出去,核心复合体(Core Complex)还是在同一个die上,保持了较好的整体性。四代至强则是核心复合体也一视同仁的分为4份,通过英特尔的EMIB(Embedded Multi-Die Interconnect Bridge,嵌入式多芯片互连桥接)技术连接为一个近似单片(quasi-monolithic)的“die”,相应的2D Mesh架构也就更为复杂。

22.png
既然全部四等分,也就不难理解,四代至强CPU的很多关键部件,都是4的倍数,包括但不限于:

  • (最多)4个16GT/s的UPI,用于CPU之间的通信;
  • 8个DDR5-4800(1DPC时)内存通道;
  • 4个HBM2e高带宽内存die……

特别值得一提的是四代至强CPU集成的4种加速器,分别是:

  • 优化流数据移动和转换操作的数据流加速器(Data Streaming Accelerator),简称DSA;
  • 用于加速加解密和数据压缩解压缩的QuickAssist技术,简称QAT;
  • 用于网络的动态负载均衡器(Dynamic Load Balancer),简称DLB;
  • 用于高级数据分析的存内分析加速器(In-Memory Analytics Accelerator),简称IAA。
    33.jpeg

不同于CPU核心集成的AMX(Advanced Matrix Extensions,高级矩阵扩展),DSA、QAT、DLB和IAA的集成是die级的——每个die各1个,每个CPU最多各4个。换句话说,它们4个,和CPU的核心数没有对应关系。

核心数与2D Mesh架构的组织方式有关,四代至强CPU的die分为XCC(eXtreme Core Count,最多核or极多核)和MCC(Medium Core Count,中等核数)两种(三代至强CPU是XCC和HCC),分水岭是32核——既有XCC,又有MCC,可以用UPI的数量辅助判断:4个UPI的是XCC,3个UPI的是MCC。

至强可扩展处理器的SKU Number(我愿称之为“型号”)规则也得以保留,数字第二位是 4 代表第四代英特尔至强可扩展处理器,第一位代表所处级别,有6个等级,其中4个一直都在:

  • 8:Platinum(铂金);
  • 6和5:Gold(金);
  • 4:Silver(银)。

在第三代英特尔至强可扩展处理器中断的3和9也回来了:

  • 3:Bronze(铜);
  • 9:在第二代英特尔至强可扩展处理器加入,可能因为“胶水”的原因,仍属于Platinum。这一次被授予集成HBM2e高带宽内存die的SKU,单开一个Max系列。

铺垫了半天,终于可以快进到SKU数字解读的环节。英特尔把这些SKU分为两大类,各5个细分类别。首先是各种通用(General Purpose,GP)型,最大的共同点在于4种die级加速器的(默认)数量:仅SKU数字最后以 + 号结尾的有DSA、QAT、DLB和IAA设备各一,其他都只有1个DSA设备。

(PS:为方便手机端阅读,我们根据英特尔官方的第四代至强产品SKU图重新制表,精简拆分成10个小图,难免会有疏漏之处,以文末“阅读原文”链接中的原始数据为准)

换句话说,第四代英特尔至强可扩展处理器的每个SKU都至少有1个DSA设备,其他3种(加速器)设备要么是没开,要么数量不定,得看具体情况。

在通用大类中,还有几条除单路外普遍适用的规律:

  • 可以扩展到双路(2S);
  • Platinum有4个UPI,XCC;
  • Gold有3个UPI,MCC;
  • Silver当然也是MCC,只给2个UPI。
    2S性能(通用型)
    44.png

成员来自Platinum和Gold,数量最多,TDP的跨度也最大,还有多达4个 + 。

2S主流(通用型)
55.png

除Platinum和Gold,还有2个UPI的Silver,以及另外的3个 + 。

液冷(通用型)

66.png
52核与32核各1款,基频(Base)与全核睿频(All Core Turbo)都力压同核数的其他SKU,当然TDP必须350瓦,不然对不起SKU后面加的那个 Q(代表Liquid Cooled)。

单路(通用型)
77.png

SKU数字以 U 结尾,UPI不需要(0),有1个6开头的XCC。

长使用寿命(IoT)通用型
88.png

SKU数字以 T 结尾,仅1款,来自Silver,10个核,2个UPI应该够用。

另一大类包括面向不同应用场景的优化型SKU,包括:

内存数据库/分析/虚拟化优化

SKU数字以 H 结尾,支持扩展到4路(4S)和8路(8S)。这个SKU池的规模仅次于2S性能(通用型),核数从最少到最多(8~60),跨度最大。
99.png

双路配置可以把所有的UPI都用于2个CPU之间互连,享有全部的带宽,以满足CPU核心数增长的需求。单纯从互连的角度,3个UPI不仅可以组4路,也可以组8路。所以这些SKU中,8开头的Platinum们有4个UPI支持8路,6开头的Gold们有3个UPI支持4路,都算尽可能兼顾拓扑规模与互连带宽的结果。

内存数据库(IMDB)、分析和虚拟化应用都需要较多的核心和较大的内存容量,英特尔一方面以更多的CPU来冲量,一方面为每个CPU开通更多的加速器。这些SKU中有3款把4种加速器(设备)都拉满,充分加速各种与数据相关的操作。

5G和网络优化
1010.png

SKU数字以 N 结尾,完全符合Platinum属XCC、4个UPI,Gold属MCC、3个UPI的一般规律,但两者中都是既有双路也有单路(Platinum 8471N、Gold 6421N和5411N)。

云优化
1111.png

1款IaaS型以 P 结尾,2款SaaS型以 V 结尾,这3款都属Platinum,却有2款3个UPI,1款仅支持单路(0个UPI的Platinum 8461V)。

还有1款媒体型,以 M 结尾。

存储及超融合(HCI)优化
1212.png

SKU数字以 S 结尾,核数不算多,加速器比较全乎——独缺与内存关系密切的IAA。TDP控制在三代至强的水平,有另1个6开头的XCC(4个UPI)。

HPC优化

前面提到的英特尔至强Max系列,SKU数字以 9 开头,集成64GB HBM2e高带宽内存,一些不算很大的数据集可以直接在其中运行,甚至不需要安装DRAM(即不插内存条)。
1313.jpeg

核数32~56,没到60个,即每个die的核数比上限少一个,多了一个HBM内存控制器。
1414.jpeg

核数最少的Intel Xeon CPU Max 9462基频及全核睿频高,它和9460都是3个UPI。TDP均为350瓦,高性能计算行业在散热上最有经验。
1515.png

5个SKU都开满了4个DSA设备,其他的外挂(die级)加速器均置0。

与[转帖]图解第四代英特尔至强可扩展处理器家族相似的内容:

[转帖]图解第四代英特尔至强可扩展处理器家族

https://aijishu.com/a/1060000000379987 今天,代号Sapphire Rapids(SPR)的第四代英特尔至强(Intel Xeon)可扩展处理器,终于来了。 从三代Lake变到Rapids,有继承,有发展。这里的继承是指2D Mesh(网格)架构,发展是指Chi

[转帖]看图识至强:10nm、40核、液冷、云优化…

https://zhuanlan.zhihu.com/p/375686108 2021年4月,英特尔(Intel)正式推出代号Ice Lake-SP的双路处理器,与2020年6月中旬发布、代号Cooper Lake-SP的四至八路处理器,共同构成第三代至强可扩展处理器(3rd Gen Intel X

[转帖]中电科45家研究所:北上第一梯队,南京、成都、重庆第二梯队

https://baijiahao.baidu.com/s?id=1731000616385989238&wfr=spider&for=pc 本文数据来源标注在图表标题下方,图表和内容均为安安小小姐姐原创,并开启全网保护,转载引用请联系作者。 中国电子科技集团有限公司,简称中国电科或中电科,缩写为C

[转帖]麒麟系统:中国火星探测器御用的国产OS系统!

中国首个火星探测器“天问一号”已经成功着陆,并拍摄了第一手的火星地貌高清大图。据央视报道,天问一号使用的操作系统也是我国自研的。 据报道,天问一号着陆巡视器已成功着陆火星,它使用的是我国自主研发的麒麟操作系统。研制该系统的团队,平均年龄不到30岁。 早在“嫦娥三号”任务中,该团队就加班加点修改了约1

[转帖]40年前电脑、芯片、光刻机,美国第一,中国第二

https://www.mzfxw.com/e/action/ShowInfo.php?classid=12&id=111592 如果讲毛主席时代中国在电脑、芯片等技术产品很厉害,年轻人绝不会相信,说这不可能。 可这是事实,老徐(微信公众号:手抄报)就找到这些资料,有图有真相。 两个年轻人不记得的人

【转帖】3.JVM内存结构概述

目录 1.JVM内存结构 1.JVM内存结构 在JVM系列的第一篇文章中已经给出了JVM内存结构的简图,下面是JVM内存结构更加详细的图。 同样,JVM的内存结构可以分为上中下3层。 上层主要是类加载子系统,负责将字节码文件加载到内存中。 类加载又分为具体的三个环节,加载(loading)、链接(l

[转帖]【Jmeter】Jmeter压力测试工具安装及使用教程(redis测试)

摘自:https://www.cnblogs.com/monjeo/p/9330464.html 一、Jmeter下载 进入官网:http://jmeter.apache.org/ 1.第一步进入官网如下图 2.选择进行下载,下载下来为一个压缩包,解压即可。 3.我下载的是jmeter4.0版本,对

[转帖]Jmeter压力测试工具安装及使用教程

https://www.cnblogs.com/monjeo/p/9330464.html 一、Jmeter下载 进入官网:http://jmeter.apache.org/ 1.第一步进入官网如下图 2.选择进行下载,下载下来为一个压缩包,解压即可。 3.我下载的是jmeter4.0版本,对应jd

[转帖]图解LVS

https://www.jianshu.com/p/89c6f27771a4 LVS (linux virtual server)是 Linux标准内核的一部分。基于TCP/IP的负载均衡技术,转发效率极高,具有处理百万计并发连接请求的能力。由于工作在linux内核层,转发效率比工作在应用层的ngi

[转帖]图解epoll

图解epoll 本文包含以下内容: epoll是如何工作的 本文不包含以下内容: epoll 的用法 epoll 的缺陷 select 和 poll 的缺点 epoll 对于动辄需要处理上万连接的网络服务应用的意义可以说是革命性的。对于普通的本地应用,select 和 poll可能就很好用了,但对于